Loading...

AI 뉴스

텐센트의 새로운 AI가 사진을 플레이 가능한 3D 월드로 변환

페이지 정보

작성자 xtalfi
작성일 2025.09.05 16:06
1,679 조회
0 추천
0 비추천

본문

e1e6f12b805b2d2eaf0381a19f21d286eEqD.jpg

(퍼플렉시티가 정리한 기사)

Tencent은 단일 이미지를 탐색 가능한 3D 세계로 변환하는 오픈소스 AI 모델인 HunyuanWorld-Voyager를 출시했습니다. 이 모델은 스탠퍼드 대학교의 WorldScore 벤치마크에서 77.62라는 최고 종합 점수를 달성해 WonderWorld(72.69)와 CogVideoX-I2V(62.15) 등 경쟁 모델을 능가했습니다.

HunyuanWorld-Voyager는 7월에 공개된 Tencent의 이전 HunyuanWorld 1.0 모델을 기반으로 합니다. 새로운 시스템은 RGB 비디오와 깊이 정보를 동시에 생성해 사용자가 키보드나 조이스틱 컨트롤을 통해 가상 환경을 탐색할 수 있게 합니다. 9월 2일 Tencent의 발표에 따르면, 이 모델은 업계 최초로 네이티브 3D 재구성 기능을 갖춘 초장거리 세계 모델입니다.

 

기술 혁신과 성과

이 모델은 이전에 생성된 3D 포인트를 저장하는 "월드 캐시" 메커니즘을 사용하여 확장된 가상 공간에서 일관성 있는 탐색이 가능합니다. 기존의 비디오 생성 방식과 달리, Voyager는 49개의 프레임이 포함된 2.5초 길이의 클립을 생성하며, 이를 이어 붙이면 더 긴 시퀀스도 만들 수 있습니다. 시스템은 캐시에 저장된 3D 포인트를 새로운 카메라 뷰에 투영하여, 다른 월드 생성 모델에서 흔히 발생하는 시각적 결함을 피하면서 공간적 일관성을 유지합니다.

Tencent는 10만 개 이상의 비디오 클립을 분석한 자동화된 데이터 파이프라인을 통해 Voyager를 학습시켰으며, 실제 영상과 Unreal Engine의 합성 렌더 파일을 조합했습니다. 이 접근 방식 덕분에 카메라 움직임과 깊이 정보에 대한 수작업 주석이 필요하지 않았습니다. 이 모델은 객체 제어(66.92), 스타일 일관성(84.89), 주관적 품질(71.09) 등 여러 WorldScore 분야에서 우수한 성과를 냈으나, 카메라 제어 부문에서는 WonderWorld의 92.98점에 이어 2위를 차지했습니다.

 

하드웨어 요구 사항 및 제한 사항

Voyager를 운영하려면 상당한 컴퓨팅 리소스가 필요하며, 540p 해상도 출력을 위해 최소 60GB의 GPU 메모리가 필요하고, 최적의 결과를 위해 텐센트는 80GB를 권장합니다. 이 회사는 단일 및 다중 GPU 구성을 모두 지원하는 코드와 함께 모델 가중치를 Hugging Face에서 제공하고 있습니다.

그러나 이 모델은 유럽 연합, 영국, 대한민국에서의 사용을 제한하는 라이선스 제한이 있습니다. 월간 활성 사용자가 1억 명을 초과하는 상업적 활용의 경우 텐센트와 별도의 라이선스 계약이 필요합니다. 이러한 제한은 텐센트의 훈위안(Hunyuan) 생태계 내 기타 모델에도 적용되며, 이는 회사의 지역별 라이선스 정책을 반영합니다.

 

시장 환경 및 응용 사례

이번 출시로 텐센트는 인터랙티브 3D 세계 생성 시스템을 개발하는 기타 기업들과 어깨를 나란히 하게 되었습니다. 구글은 8월에 Genie 3를 발표했고, 다이나믹스 랩의 Mirage 2는 사진을 플레이 가능한 공간으로 변환할 수 있도록 해줍니다. Voyager는 비디오 제작과 3D 재구성을 중점적으로 다루어, 순수한 인터랙티브 방식과 차별화됩니다.

벤치마크 성과에도 불구하고, 전문가들은 현재의 높은 컴퓨팅 요구사항과 장기간, 일관된 장면 생성의 한계로 인해, 실시간 게임이나 대규모 애플리케이션에서는 즉각적인 적용이 어렵다고 지적합니다. 해당 기술은 AI 기반 가상 세계 창조의 진보를 보여주지만, 대중적 도입은 하드웨어 사양과 라이선스 제한으로 인해 여전히 제약을 받고 있습니다.

댓글 0
전체 1,238 / 286 페이지
LG전자가 "Radio Optimism" 이라는 이름으로 AI 음악생성 이벤트를 진행하고 있네요.https://radiooptimism.lg.com/ko누구나 쉽게 음악을 만들고 이를 공유하는 이벤트로 간단히 분위기와 장르 등을 선택하면 곡을 만들어줍니다..https://live.lge.co.kr/2508-lg-radio-optimism/
1666 조회
3 추천
2025.08.18 등록
앤트로픽의 클로드는 두 가지 주요 기능 업데이트로 주목받고 있습니다.첫 번째는 메모리 기능입니다. 이 기능은 사용자가 요청할 때만 과거 대화를 검색하여 요약하고 프로젝트를 연결할 수 있게 해줍니다. 설정 메뉴의 프로필에서 채팅 검색 및 참조를 활성화하면 휴가 전 진행했던 대화 내용을 불러와 "계속 같은 프로젝트를 진행하겠는가"라고 제안하는 방식으로 작동합니다. 이는 오픈AI의 지속적 메모리와 달리 개인 프로필을 만들지 않고 업무 효율성에만 집중한 점이 특징입니다.두 번째는 아티팩트(Artifacts) 기능의 대폭 업그레이드입니다. 이 기능을 통해 사용자는 코딩 지식 없이도 실제 작동하는 앱을 만들 수 있습니다. 예를 들어 "주제를 고르면 자동으로 암기장을 생성해 주는 플래시카드 앱을 만들어줘"라고 요청하면 클로드가 사용자 맞춤형 AI 기반 교육 앱을 바로 구현합니다. 지금까지 5억 건 이상의 아티팩트가 생성되었으며, 생산성 도구부터 교육용 게임, 음악 창작 앱까지 다양한 콘텐츠가 포함됩니다. 무료 계정을 포함한 모든 사용자가 이용할 수 있으며, 생성된 앱을 웹에 공유하고 다른 사용자가 수정하고 재사용할 수 있습니다.
1882 조회
0 추천
2025.08.18 등록
오픈AI는 사용자 의견을 수용하여 챗GPT의 모델 선택 메뉴를 되살렸습니다. 이제 사용자는 자동, 빠름, 싱킹(Thinking) 세 가지 모드 중에서 선택할 수 있습니다. 자동 모드는 쿼리에 따라 추론과 비추론 모델이 알아서 선택되며, 빠름 모드는 비추론 모델을 활용합니다. 싱킹 모드는 답변에 더 많은 컴퓨팅을 소모하고 출력 시간이 더 걸리는 추론 모델을 의미합니다.유료 사용자들은 지원이 중단된 GPT-4o와 GPT-4.1, o3 등 기존 모델과 새로 추가된 GPT-5 싱킹 미니 등을 이용할 수 있습니다. GPT-4o는 모델 선택기에 기본으로 포함되며, 다른 모델은 설정에서 추가할 수 있습니다. 샘 알트먼 CEO는 GPT-5에 적용된 4가지 개성을 더 따뜻한 느낌을 주면서도 불편하지 않도록 업그레이드하겠다고 밝혔습니다.이러한 업데이트들은 AI 도구들이 단순한 질문 답변을 넘어 실제 업무 환경에서 활용할 수 있는 실용적인 기능들로 진화하고 있음을 보여줍니다. 특히 사용자의 작업 흐름을 이해하고 지원하는 방향으로 발전하고 있어, 앞으로 AI 도구들이 개인 비서나 업무 파트너 역할을 더욱 효과적으로 수행할 것으로 예상됩니다.이 기능은 좌측 상단의 ChatGPT 5 버튼을 클릭하여 선택 가능합니다.
1827 조회
0 추천
2025.08.18 등록
YouTube, AI로 이용자 나이 추정해 미성년자 보호 강화유튜브가 나이 판단을 생년월일 입력방식에서 게시물을 통한 AI 의 추측으로 판단하는 것으로 변경하는 것을 테스트 중이라고CNN이 보도했다.이렇게 되면 AI가 만 18세 미만으로 판단한 이용자에게는 기존 청소년 보호 조치가 자동으로 적용된다. 여기에는 폭력적이거나 선정적인 민감 콘텐츠 제한, 반복 시청 제한, 휴식 알림, 맞춤형 광고 비활성화 등이 포함된다.만약 성인이 올린 것인데도 미성년자로 분류될 경우, 신분증, 신용카드, 또는 셀카(본인 확인용)를 제출해 나이 인증을 할 수 있다.이번 시스템은 로그인한 이용자에게만 적용될 것으로 알려졌으며, 로그아웃 상태에서는 일부 연령 제한 콘텐츠를 볼 수 없지만, 청소년이 부모 동의 없이 시스템을 우회할 가능성도 일부 남아 있다.
1893 조회
0 추천
2025.08.18 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입