Loading...

AI 뉴스

텐센트의 새로운 AI가 사진을 플레이 가능한 3D 월드로 변환

페이지 정보

작성자 xtalfi
작성일 2025.09.05 16:06
1,736 조회
0 추천
0 비추천

본문

e1e6f12b805b2d2eaf0381a19f21d286eEqD.jpg

(퍼플렉시티가 정리한 기사)

Tencent은 단일 이미지를 탐색 가능한 3D 세계로 변환하는 오픈소스 AI 모델인 HunyuanWorld-Voyager를 출시했습니다. 이 모델은 스탠퍼드 대학교의 WorldScore 벤치마크에서 77.62라는 최고 종합 점수를 달성해 WonderWorld(72.69)와 CogVideoX-I2V(62.15) 등 경쟁 모델을 능가했습니다.

HunyuanWorld-Voyager는 7월에 공개된 Tencent의 이전 HunyuanWorld 1.0 모델을 기반으로 합니다. 새로운 시스템은 RGB 비디오와 깊이 정보를 동시에 생성해 사용자가 키보드나 조이스틱 컨트롤을 통해 가상 환경을 탐색할 수 있게 합니다. 9월 2일 Tencent의 발표에 따르면, 이 모델은 업계 최초로 네이티브 3D 재구성 기능을 갖춘 초장거리 세계 모델입니다.

 

기술 혁신과 성과

이 모델은 이전에 생성된 3D 포인트를 저장하는 "월드 캐시" 메커니즘을 사용하여 확장된 가상 공간에서 일관성 있는 탐색이 가능합니다. 기존의 비디오 생성 방식과 달리, Voyager는 49개의 프레임이 포함된 2.5초 길이의 클립을 생성하며, 이를 이어 붙이면 더 긴 시퀀스도 만들 수 있습니다. 시스템은 캐시에 저장된 3D 포인트를 새로운 카메라 뷰에 투영하여, 다른 월드 생성 모델에서 흔히 발생하는 시각적 결함을 피하면서 공간적 일관성을 유지합니다.

Tencent는 10만 개 이상의 비디오 클립을 분석한 자동화된 데이터 파이프라인을 통해 Voyager를 학습시켰으며, 실제 영상과 Unreal Engine의 합성 렌더 파일을 조합했습니다. 이 접근 방식 덕분에 카메라 움직임과 깊이 정보에 대한 수작업 주석이 필요하지 않았습니다. 이 모델은 객체 제어(66.92), 스타일 일관성(84.89), 주관적 품질(71.09) 등 여러 WorldScore 분야에서 우수한 성과를 냈으나, 카메라 제어 부문에서는 WonderWorld의 92.98점에 이어 2위를 차지했습니다.

 

하드웨어 요구 사항 및 제한 사항

Voyager를 운영하려면 상당한 컴퓨팅 리소스가 필요하며, 540p 해상도 출력을 위해 최소 60GB의 GPU 메모리가 필요하고, 최적의 결과를 위해 텐센트는 80GB를 권장합니다. 이 회사는 단일 및 다중 GPU 구성을 모두 지원하는 코드와 함께 모델 가중치를 Hugging Face에서 제공하고 있습니다.

그러나 이 모델은 유럽 연합, 영국, 대한민국에서의 사용을 제한하는 라이선스 제한이 있습니다. 월간 활성 사용자가 1억 명을 초과하는 상업적 활용의 경우 텐센트와 별도의 라이선스 계약이 필요합니다. 이러한 제한은 텐센트의 훈위안(Hunyuan) 생태계 내 기타 모델에도 적용되며, 이는 회사의 지역별 라이선스 정책을 반영합니다.

 

시장 환경 및 응용 사례

이번 출시로 텐센트는 인터랙티브 3D 세계 생성 시스템을 개발하는 기타 기업들과 어깨를 나란히 하게 되었습니다. 구글은 8월에 Genie 3를 발표했고, 다이나믹스 랩의 Mirage 2는 사진을 플레이 가능한 공간으로 변환할 수 있도록 해줍니다. Voyager는 비디오 제작과 3D 재구성을 중점적으로 다루어, 순수한 인터랙티브 방식과 차별화됩니다.

벤치마크 성과에도 불구하고, 전문가들은 현재의 높은 컴퓨팅 요구사항과 장기간, 일관된 장면 생성의 한계로 인해, 실시간 게임이나 대규모 애플리케이션에서는 즉각적인 적용이 어렵다고 지적합니다. 해당 기술은 AI 기반 가상 세계 창조의 진보를 보여주지만, 대중적 도입은 하드웨어 사양과 라이선스 제한으로 인해 여전히 제약을 받고 있습니다.

댓글 0
전체 1,248 / 299 페이지
구글이 바이브코딩 전용 앱인 Opal 을 테스트 중인 것으로 알려졌다.AI 기반 코딩 도구는 최근 매우 인기를 얻고 있고, 거의 모든 주요 기술 회사가 사용하거나 자체적으로 만들고 있는 것으로 알려졌는데. 특히 소위 "바이브 코딩" 도구의 제작자들은 현재 핫한 상품이며, Lovable과 Cursor와 같은 스타트업은 핫 트렌드를 이용하려는 구매자와 투자자들의 관심을 얻고 있는 상황이다.이러한 시점에 구글이 뛰어들었다. 구글은 구글 랩을 통해 미국 사용자들이 사용할 수 있는 오팔이라는 분위기 코딩 도구를 테스트하고 있으며, 이 도구를 새로운 기술을 실험하고 있다고.오팔은 여기에서 확인할 수 있다.https://opal.withgoogle.com/landing/오팔을 사용하면 텍스트 프롬프트를 사용하여 미니 웹 앱을 만들거나 갤러리에서 사용할 수 있는 기존 앱을 리믹스할 수 있다고 하며, 사용자가 만들고자 하는 앱에 대한 설명을 입력하기만 하면 도구가 다른 Google 모델을 사용하여 이를 수행할 것이라고 한다.
2113 조회
0 추천
2025.07.26 등록
디자인 프로토타입 툴로 유명한 Figma 가 연초 계획한 대로 AI 기능을 탑재한 앱을 모두에게 공개했다.그동안 베타 테스트로 운영해 온 Figma AI 앱은 7월 24일부터 모두가 사용할 수 있도록 공개된 것이다피그마가 홈페이지를 통해 밝힌 내용의 핵심은 아래와 같다.--Figma Make와 Figma AI의 Make and Edit Image , Boost Resolution 등 의 기능이 베타 버전에서 일반 공개 버전으로 전환된다는 소식을 전해드리게 되어 기쁩니다.정식 사용자는 Figma Make 파일을 게시*하거나 비공개적으로 공유하는 기능을 포함하여 AI 기능과 Figma Make의 모든 잠재력을 활용할 수 있습니다.View, Collab 및 Dev 시트 사용자는 Figma Make 파일을 초안 상태로 무제한으로 사용할 수 있으며, 사용 가능한 제품에서 AI 기능을 사용해 볼 수 있습니다.스타터 플랜 사용자는 Figma Make 파일을 무제한으로 초안 형태로 사용할 수 있으며, 최대 3개의 Figma Make 파일을 팀과 공유할 수 있습니다. 다른 AI 기능은 유료 플랜에서만 제공됩니다.단, Figma Make 파일 게시 기능은 아직 베타 버전입니다.
2170 조회
0 추천
2025.07.25 등록
AI 분야의 투자로 Big Tech 의 CAPEX 진출이 크게 늘고 있다고 미국 언론들이 보도했다.미국 4대 기술 기업 의 지출은 작년에 63% 급증하여 사상 최고치를 기록. 마이크로소프트, 알파벳, 아마존, 메타는 2024년에 2,460억 달러의 자본 지출을 보고했는데, 이는 2023년의 1,510억 달러에서 증가한 수치이다. 이들은 AI 대규모 언어 모델 연구의 선두를 유지하기 위해 데이터 센터를 구축하고 특수 칩 클러스터를 채우기 위한 경쟁에 돌입하면서 올해 지출이 3,200억 달러를 초과할 수 있다고 예측되었다.
1953 조회
0 추천
2025.07.25 등록
오픈AI의 GPT 5 가 8월중 출시할 것으로 TechCrunch가 보도했다.원래 이 버전은 연초 5월 말로 예상됐으나 추가 테스트 등으로 일정이 미뤄졌고,내부 인사와 CEO 샘 알트먼의 트위터 언급을 통해 8월 중 발표가 이뤄질 것으로 알려졌다.새 버전은 다음과 같은 기능이 업데이트 될 예정이라고 한다.통합 모델: GPT-5는 기존의 GPT-시리즈와 o-시리즈(특히 o3 reasoning 기술)를 통합한 형태로 제공될 예정이다. 이로써 사용자가 모델을 따로 선택할 필요 없이, 하나의 시스템에서 다양한 인공지능 기능을 누릴 수 있다124.다양한 버전: 메인 GPT-5 외에 미니(mini)·나노(nano) 버전도 함께 제공된다. mini는 ChatGPT와 OpenAI API에서, nano는 API에서만 제공될 예정이다123.강화된 추론(Reasoning): CEO 샘 알트먼은 팟캐스트에서 “내가 답을 못하던 문제를 GPT-5가 완벽하게 풀었다”며, 사람을 능가하는 수준의 추론 능력을 강조했다. 모델의 대표적 '여기 있다' 순간이었다고 언급했다
2215 조회
0 추천
2025.07.25 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입