Loading...

AI 뉴스

텐센트의 새로운 AI가 사진을 플레이 가능한 3D 월드로 변환

페이지 정보

작성자 xtalfi
작성일 2025.09.05 16:06
1,728 조회
0 추천
0 비추천

본문

e1e6f12b805b2d2eaf0381a19f21d286eEqD.jpg

(퍼플렉시티가 정리한 기사)

Tencent은 단일 이미지를 탐색 가능한 3D 세계로 변환하는 오픈소스 AI 모델인 HunyuanWorld-Voyager를 출시했습니다. 이 모델은 스탠퍼드 대학교의 WorldScore 벤치마크에서 77.62라는 최고 종합 점수를 달성해 WonderWorld(72.69)와 CogVideoX-I2V(62.15) 등 경쟁 모델을 능가했습니다.

HunyuanWorld-Voyager는 7월에 공개된 Tencent의 이전 HunyuanWorld 1.0 모델을 기반으로 합니다. 새로운 시스템은 RGB 비디오와 깊이 정보를 동시에 생성해 사용자가 키보드나 조이스틱 컨트롤을 통해 가상 환경을 탐색할 수 있게 합니다. 9월 2일 Tencent의 발표에 따르면, 이 모델은 업계 최초로 네이티브 3D 재구성 기능을 갖춘 초장거리 세계 모델입니다.

 

기술 혁신과 성과

이 모델은 이전에 생성된 3D 포인트를 저장하는 "월드 캐시" 메커니즘을 사용하여 확장된 가상 공간에서 일관성 있는 탐색이 가능합니다. 기존의 비디오 생성 방식과 달리, Voyager는 49개의 프레임이 포함된 2.5초 길이의 클립을 생성하며, 이를 이어 붙이면 더 긴 시퀀스도 만들 수 있습니다. 시스템은 캐시에 저장된 3D 포인트를 새로운 카메라 뷰에 투영하여, 다른 월드 생성 모델에서 흔히 발생하는 시각적 결함을 피하면서 공간적 일관성을 유지합니다.

Tencent는 10만 개 이상의 비디오 클립을 분석한 자동화된 데이터 파이프라인을 통해 Voyager를 학습시켰으며, 실제 영상과 Unreal Engine의 합성 렌더 파일을 조합했습니다. 이 접근 방식 덕분에 카메라 움직임과 깊이 정보에 대한 수작업 주석이 필요하지 않았습니다. 이 모델은 객체 제어(66.92), 스타일 일관성(84.89), 주관적 품질(71.09) 등 여러 WorldScore 분야에서 우수한 성과를 냈으나, 카메라 제어 부문에서는 WonderWorld의 92.98점에 이어 2위를 차지했습니다.

 

하드웨어 요구 사항 및 제한 사항

Voyager를 운영하려면 상당한 컴퓨팅 리소스가 필요하며, 540p 해상도 출력을 위해 최소 60GB의 GPU 메모리가 필요하고, 최적의 결과를 위해 텐센트는 80GB를 권장합니다. 이 회사는 단일 및 다중 GPU 구성을 모두 지원하는 코드와 함께 모델 가중치를 Hugging Face에서 제공하고 있습니다.

그러나 이 모델은 유럽 연합, 영국, 대한민국에서의 사용을 제한하는 라이선스 제한이 있습니다. 월간 활성 사용자가 1억 명을 초과하는 상업적 활용의 경우 텐센트와 별도의 라이선스 계약이 필요합니다. 이러한 제한은 텐센트의 훈위안(Hunyuan) 생태계 내 기타 모델에도 적용되며, 이는 회사의 지역별 라이선스 정책을 반영합니다.

 

시장 환경 및 응용 사례

이번 출시로 텐센트는 인터랙티브 3D 세계 생성 시스템을 개발하는 기타 기업들과 어깨를 나란히 하게 되었습니다. 구글은 8월에 Genie 3를 발표했고, 다이나믹스 랩의 Mirage 2는 사진을 플레이 가능한 공간으로 변환할 수 있도록 해줍니다. Voyager는 비디오 제작과 3D 재구성을 중점적으로 다루어, 순수한 인터랙티브 방식과 차별화됩니다.

벤치마크 성과에도 불구하고, 전문가들은 현재의 높은 컴퓨팅 요구사항과 장기간, 일관된 장면 생성의 한계로 인해, 실시간 게임이나 대규모 애플리케이션에서는 즉각적인 적용이 어렵다고 지적합니다. 해당 기술은 AI 기반 가상 세계 창조의 진보를 보여주지만, 대중적 도입은 하드웨어 사양과 라이선스 제한으로 인해 여전히 제약을 받고 있습니다.

댓글 0
전체 1,248 / 296 페이지
중국 최대 검색엔진 운영사인 바이두가 인공지능을 활용해 동물의 울음소리를 인간 언어로 번역하는 혁신적인 기술을 개발 중이라고 로이터가 보도했습니다.바이두는 최근 중국국가지식산권국에 관련 기술에 대한 특허를 출원했으며, 공개된 특허 문서에 따르면 이 시스템은 동물의 울음소리뿐만 아니라 행동 패턴, 생리학적 신호 등 다양한 데이터를 수집한 후 이를 사전 처리하고 통합해 AI가 분석하는 방식으로 작동합니다.분석된 결과는 동물의 감정 상태를 파악하는 데 활용되며, 이 감정은 다시 의미 단위로 해석되어 인간의 언어로 번역됩니다.바이두는 특허 문서에서 이 시스템이 인간과 동물 간 감정적 소통과 이해를 한층 더 깊게 해주며 종을 뛰어넘는 커뮤니케이션의 정확성과 효율성을 개선할 것이라고 설명했습니다.바이두 대변인은 현재 여전히 연구 단계에 있다고 밝혔으며, 중국 SNS에서는 우리 집 강아지가 나한테 뭐라고 하는지 드디어 알게 될까라는 기대 섞인 반응과 함께 실제 현장에서 얼마나 정확하게 작동할지는 두고 봐야 한다는 회의적인 시선도 나타나고 있습니다.
2237 조회
0 추천
2025.08.04 등록
인공지능 휴머노이드 로봇이 그린 초상화가 경매 역사상 최고가에 낙찰되어 화제가 되고 있습니다.AFP통신 등 외신에 따르면 영국 런던 소더비 디지털 아트 세일 경매에서 세계 최초 초현실주의 로봇 아티스트 '아이다'가 그린 작품이 132만 달러(약 18억4700만원)에 팔렸다고 보도했습니다.'인공지능 신'이라는 제목의 이 작품은 컴퓨터 과학의 아버지로 불리는 영국 수학자 앨런 튜링의 얼굴을 그린 2.2m 크기의 대형 초상화입니다. 당초 경매 예상가는 18만 달러 정도였으나 실제 낙찰가는 예상의 7배를 넘어서는 기록적인 수준을 보였습니다.아이다는 2019년 근현대 미술 전문가 에이단 멜러가 옥스퍼드대학교와 버밍엄대학교 소속 AI 전문가들과 협업하여 개발한 로봇으로, 단발머리의 젊은 여성 외형을 하고 있으며 눈에 장착된 카메라와 로봇 팔을 이용해 직접 그림을 그립니다.소더비 측은 휴머노이드 로봇 아티스트가 경매에 출품한 최초의 작품이 기록적인 낙찰가를 기록한 것은 근현대 미술사의 한 획을 그은 것이라며 AI 기술과 국제 미술 시장의 교차점이 커지고 있음을 보여준 사례라고 평가했습니다.
2236 조회
0 추천
2025.08.04 등록
엘론 머스크의 xAI가 개발한 AI 챗봇 'Grok'이 6초 분량의 동영상을 생성하는 새로운 기능 'Imagine'을 공개했다.이 기능은 사용자 프롬프트에 따라 소리를 포함한 짧은 영상을 만들 수 있으며,성인용 및 나체 영상(‘spicy mode’)까지 제작이 가능하다는 점에서 논란이 되고 있다.현재 일부 직원들과 구독자들이 베타 테스트 중이며, 공식 출시일은 10월로 예정되어 있습니다.이 업데이트는 기존 Grok챗봇이 선정적인 AI '컴패니언'을 도입하면서 이미 논란에 휩싸인 상태에서발표되었고, 이 기능이 유명인 등 타인의 얼굴·이미지를 사실적으로 합성해 만든 '딥페이크' 영상 생산에 악용될 수 있다는 우려를 낳고 있다.
2430 조회
0 추천
2025.08.03 등록
애플 CEO 팀 쿡은 사내 전체 회의에서 AI가 스마트폰과 인터넷보다 더 큰 영향을 미칠 기술이라며 애플의 AI 우선순위를 강조했다.그는 애플이 PC, 스마트폰, 태블릿, MP3 플레이어 등에서 첫 번째가 아니었음에도 시장을 주도해왔다며, AI에서도 비슷한 혁신을 이룰 것이라고 밝혔다.애플은 소프트웨어 책임자 크레이그 페더리기는 Siri 아키텍처 개편이 기대 이상의 결과를 보이고 있다고 전했다. 이는 메타의 AI 전문가 스카우팅과 애플 내 사기 저하에 대응하기 위한 발언으로 보인다.
2294 조회
0 추천
2025.08.02 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입