Loading...

AI 뉴스

텐센트의 새로운 AI가 사진을 플레이 가능한 3D 월드로 변환

페이지 정보

작성자 xtalfi
작성일 09.05 16:06
105 조회
0 추천
0 비추천

본문

e1e6f12b805b2d2eaf0381a19f21d286eEqD.jpg

(퍼플렉시티가 정리한 기사)

Tencent은 단일 이미지를 탐색 가능한 3D 세계로 변환하는 오픈소스 AI 모델인 HunyuanWorld-Voyager를 출시했습니다. 이 모델은 스탠퍼드 대학교의 WorldScore 벤치마크에서 77.62라는 최고 종합 점수를 달성해 WonderWorld(72.69)와 CogVideoX-I2V(62.15) 등 경쟁 모델을 능가했습니다.

HunyuanWorld-Voyager는 7월에 공개된 Tencent의 이전 HunyuanWorld 1.0 모델을 기반으로 합니다. 새로운 시스템은 RGB 비디오와 깊이 정보를 동시에 생성해 사용자가 키보드나 조이스틱 컨트롤을 통해 가상 환경을 탐색할 수 있게 합니다. 9월 2일 Tencent의 발표에 따르면, 이 모델은 업계 최초로 네이티브 3D 재구성 기능을 갖춘 초장거리 세계 모델입니다.

 

기술 혁신과 성과

이 모델은 이전에 생성된 3D 포인트를 저장하는 "월드 캐시" 메커니즘을 사용하여 확장된 가상 공간에서 일관성 있는 탐색이 가능합니다. 기존의 비디오 생성 방식과 달리, Voyager는 49개의 프레임이 포함된 2.5초 길이의 클립을 생성하며, 이를 이어 붙이면 더 긴 시퀀스도 만들 수 있습니다. 시스템은 캐시에 저장된 3D 포인트를 새로운 카메라 뷰에 투영하여, 다른 월드 생성 모델에서 흔히 발생하는 시각적 결함을 피하면서 공간적 일관성을 유지합니다.

Tencent는 10만 개 이상의 비디오 클립을 분석한 자동화된 데이터 파이프라인을 통해 Voyager를 학습시켰으며, 실제 영상과 Unreal Engine의 합성 렌더 파일을 조합했습니다. 이 접근 방식 덕분에 카메라 움직임과 깊이 정보에 대한 수작업 주석이 필요하지 않았습니다. 이 모델은 객체 제어(66.92), 스타일 일관성(84.89), 주관적 품질(71.09) 등 여러 WorldScore 분야에서 우수한 성과를 냈으나, 카메라 제어 부문에서는 WonderWorld의 92.98점에 이어 2위를 차지했습니다.

 

하드웨어 요구 사항 및 제한 사항

Voyager를 운영하려면 상당한 컴퓨팅 리소스가 필요하며, 540p 해상도 출력을 위해 최소 60GB의 GPU 메모리가 필요하고, 최적의 결과를 위해 텐센트는 80GB를 권장합니다. 이 회사는 단일 및 다중 GPU 구성을 모두 지원하는 코드와 함께 모델 가중치를 Hugging Face에서 제공하고 있습니다.

그러나 이 모델은 유럽 연합, 영국, 대한민국에서의 사용을 제한하는 라이선스 제한이 있습니다. 월간 활성 사용자가 1억 명을 초과하는 상업적 활용의 경우 텐센트와 별도의 라이선스 계약이 필요합니다. 이러한 제한은 텐센트의 훈위안(Hunyuan) 생태계 내 기타 모델에도 적용되며, 이는 회사의 지역별 라이선스 정책을 반영합니다.

 

시장 환경 및 응용 사례

이번 출시로 텐센트는 인터랙티브 3D 세계 생성 시스템을 개발하는 기타 기업들과 어깨를 나란히 하게 되었습니다. 구글은 8월에 Genie 3를 발표했고, 다이나믹스 랩의 Mirage 2는 사진을 플레이 가능한 공간으로 변환할 수 있도록 해줍니다. Voyager는 비디오 제작과 3D 재구성을 중점적으로 다루어, 순수한 인터랙티브 방식과 차별화됩니다.

벤치마크 성과에도 불구하고, 전문가들은 현재의 높은 컴퓨팅 요구사항과 장기간, 일관된 장면 생성의 한계로 인해, 실시간 게임이나 대규모 애플리케이션에서는 즉각적인 적용이 어렵다고 지적합니다. 해당 기술은 AI 기반 가상 세계 창조의 진보를 보여주지만, 대중적 도입은 하드웨어 사양과 라이선스 제한으로 인해 여전히 제약을 받고 있습니다.

댓글 0
전체 192 / 22 페이지
구름 측은 “‘Stack Overflow Developer Survey 2025’의 리서치에 따르면 개발자는 10명중 8명이 이미 업무에 AI 도구를 활용하고 있다”며 “AI 코드 어시스턴트를 사용하는 기업 소프트웨어 엔지니어가 2023년 초에는 10% 미만에 불과했지만, 2028년에는 75%까지 증가할 전망이며, 이는 곧 AI 활용 능력이 개발자의 필수 역량으로 자리잡고 있음을 보여준다”고 설명했다.개발자가 코딩에 가장 많이 활용하는 LLM은 Claude(42%), ChatGPT(21%), Gemini(16%) 순으로 Claude가 코딩분야에서는 ChatGPT를 제치고 1위로 부상했다. LLM에 가장 많이 활용되는 개발언어는 Python이다.https://www.tech42.co.kr/%ea%b5%ac%eb%a6%84-%ea%b8%80%eb%a1%9c%eb%b2%8c-%ea%b0%9c%eb%b0%9c%ec%9e%90-ai-%ed%99%9c%ec%9a%a9-%ed%8a%b8%eb%a0%8c%eb%93%9c-%eb%b6%84%ec%84%9d-%ec%9d%b8%ec%82%ac%ec%9d%b4%ed%8a%b8%eb%a5%bc-%eb%b3%b4/
320 조회
0 추천
2025.08.21 등록
MIT 연구진이 기업의 생성형 AI 시범사업 중 95%가 수익 창출에 실패했다는 충격적인 연구 결과를 발표했다.18일(현지시간) 포춘지에 따르면, MIT 미디어랩 NANDA 이니셔티브가 발표한 '생성형 AI 격차: 2025년 비즈니스 AI 현황' 보고서는 대부분의 기업 AI 프로젝트가 기대에 못 미치는 성과를 거두고 있다고 밝혔다.연구진은 95%의 기업에서 생성형 AI 구현이 부진한 핵심 원인이 AI 모델의 품질이 아니라 도구와 조직 모두의 '학습 격차'에 있다고 분석했다. 경영진들이 종종 규제나 모델 성능을 탓하지만, MIT 연구는 잘못된 기업 통합 방식을 지적했다.생성형 AI 예산의 절반 이상이 영업 및 마케팅 도구에 투입되고 있지만, MIT는 백오피스 자동화에서 가장 큰 투자수익률을 발견했다. 성공적인 AI 배포의 비결은 도입 방식에 있다. 전문 업체로부터 AI 도구를 구매하고 파트너십을 구축하는 방식은 약 67%의 성공률을 보인 반면, 내부 개발은 3분의 1 정도의 성공률만을 기록했다.
243 조회
0 추천
2025.08.21 등록
구글 포토에 드디어 음성으로 사진집이 가능해졌습니다. AI 편집기능이 추가된 것입니다."이 사진을 더 좋게 만들어줘"라고 말하면 자동으로 편집해준다고 합니다. 편집 스킬이 부족한 사람들한테 정말 유용한 기능일 것 같습니다.특히 C2PA 표준 도입으로 AI로 편집했는지 원본인지 구분할 수 있게 된 점이 인상적입니다. 딥페이크나 가짜 이미지를 걸러낼 수 있는 기능입니다.구글 픽셀 10(Pixel 10)부터 시작해서 iOS와 안드로이드 구글포토로 점진적을 확대될 예정이라고 합니다.
242 조회
0 추천
2025.08.21 등록
- 최근 월 약 28만 원(200달러) 구독료로 800만 원 상당의 토큰을 사용하는 '추론 고래'(Inference whales) 개발자들이 다수 등장.- 일부 헤비유저 때문에 앤트로픽, 바이브 코딩 등 AI 스타트업의 수익성 악화 논란.- 대표적으로 한 사용자는 한 달간 51억 토큰(806만 원치 API 비용)에 달하는 클로드 코드 사용. 상위 169명은 한 달간 2777억 토큰 소비.- 서비스 업체들은 남용 방지 위해 무제한 요금제에 주간 사용량 제한 등 도입, 별도 초과 요금 부과 시작(8/28부터).- 비용 하락에도 최고 모델 수요는 여전히 높으며, AI 활용 워크플로우 확대에 따라 실제 토큰 사용량은 증가.- 전문가들은 "AI 추론 비용 감소가 현실적으로 어렵고, 무제한 요금제는 지속 불가능"이라는 의견 제시
262 조회
0 추천
2025.08.20 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입