[AI타임즈] 구글, 동영상 생성 '프롬프트 엔지니어링' 에이전트 공개
페이지 정보
본문
| AI 도구 | Gemini |
|---|---|
| 프롬프트 | Https://www.aitimes.com/news/articleView.html?idxno=203389 내용 정라 |
요청하신 기사(https://www.aitimes.com/news/articleView.html?idxno=203389)의 내용은 다음과 같습니다.
구글, 동영상 생성 '프롬프트 엔지니어링' 에이전트 'VISTA' 공개
이 기사는 구글이 인공지능(AI) 영상 생성에 최적화된 프롬프트를 자동으로 생성하고 개선하는 추론 에이전트인 **'VISTA (Video Iterative Self Improvement Agent, 비디오 반복 자기개선 에이전트)'**를 공개했다는 내용입니다.
1. VISTA의 목적 및 역할
목적: 사용자가 입력하는 간단한 텍스트 프롬프트를 AI가 추론하여, 구체적이고 현실적인 동영상 출력에 최적화된 상세 프롬프트로 자동 변환하고 개선합니다.
필요성: 텍스트-비디오 생성 기술이 발전했음에도 불구하고, 생성되는 영상의 품질이 사용자의 정확한 프롬프트에 크게 의존한다는 문제점을 해결하기 위해 개발되었습니다. 기존 프롬프트 최적화 전략이 영상 속 물리 법칙, 사운드 등 여러 요소 때문에 어려움을 겪는 점도 보완합니다.
2. VISTA의 4단계 개선 작업 프로세스
VISTA는 시각, 오디오, 맥락 등 세 가지 측면을 모두 개선하는 것을 목표로 하며, 다음과 같은 4단계의 반복 작업을 거칩니다.
아이디어 분해 및 프롬프트 재작성: 사용자 프롬프트를 시간별 장면으로 분해하고, '제미나이 2.5 플래시'를 활용해 지속 시간, 장면 유형, 캐릭터, 동작, 사운드 등 9가지 속성을 채워넣고 현실성, 관련성, 창의성 제약을 적용하여 프롬프트를 재작성합니다.
프롬프트 및 영상 비교: 재작성된 프롬프트로 생성된 영상과 원래 프롬프트로 생성된 영상을 비교하여, 시각적 충실도, 물리적 상식, 텍스트-비디오 정렬 등을 기준으로 더 나은 영상을 만든 '승리자 프롬프트'를 가려냅니다.
집중 분석 및 비평: 승리자 영상과 프롬프트를 시각, 청각, 맥락의 세 가지 에이전트(일반, 적대적, 메타 심사위원)가 수십 가지 항목에 대해 1점부터 10점까지 점수를 매겨 비평합니다.
심층 사고 에이전트 작업: 심층적 사고 에이전트가 비평 내용을 파악해 6단계의 작업을 거쳐 최종적으로 정제된 프롬프트를 생성합니다.
3. 주요 성과
VISTA는 이 1~4단계를 반복하며 영상의 퀄리티를 지속적으로 높이는 무한 루프 구조를 갖추고 있습니다.
연구팀 실험 결과, VISTA를 통해 5번 루프를 거쳐 생성한 영상이 오리지널 프롬프트 영상보다 인간 선호도 평가에서 66.4% 더 높은 선호도를 보였습니다.