Loading...

AI 뉴스

텐센트의 새로운 AI가 사진을 플레이 가능한 3D 월드로 변환

페이지 정보

작성자 xtalfi
작성일 2025.09.05 16:06
378 조회
0 추천
0 비추천

본문

e1e6f12b805b2d2eaf0381a19f21d286eEqD.jpg

(퍼플렉시티가 정리한 기사)

Tencent은 단일 이미지를 탐색 가능한 3D 세계로 변환하는 오픈소스 AI 모델인 HunyuanWorld-Voyager를 출시했습니다. 이 모델은 스탠퍼드 대학교의 WorldScore 벤치마크에서 77.62라는 최고 종합 점수를 달성해 WonderWorld(72.69)와 CogVideoX-I2V(62.15) 등 경쟁 모델을 능가했습니다.

HunyuanWorld-Voyager는 7월에 공개된 Tencent의 이전 HunyuanWorld 1.0 모델을 기반으로 합니다. 새로운 시스템은 RGB 비디오와 깊이 정보를 동시에 생성해 사용자가 키보드나 조이스틱 컨트롤을 통해 가상 환경을 탐색할 수 있게 합니다. 9월 2일 Tencent의 발표에 따르면, 이 모델은 업계 최초로 네이티브 3D 재구성 기능을 갖춘 초장거리 세계 모델입니다.

 

기술 혁신과 성과

이 모델은 이전에 생성된 3D 포인트를 저장하는 "월드 캐시" 메커니즘을 사용하여 확장된 가상 공간에서 일관성 있는 탐색이 가능합니다. 기존의 비디오 생성 방식과 달리, Voyager는 49개의 프레임이 포함된 2.5초 길이의 클립을 생성하며, 이를 이어 붙이면 더 긴 시퀀스도 만들 수 있습니다. 시스템은 캐시에 저장된 3D 포인트를 새로운 카메라 뷰에 투영하여, 다른 월드 생성 모델에서 흔히 발생하는 시각적 결함을 피하면서 공간적 일관성을 유지합니다.

Tencent는 10만 개 이상의 비디오 클립을 분석한 자동화된 데이터 파이프라인을 통해 Voyager를 학습시켰으며, 실제 영상과 Unreal Engine의 합성 렌더 파일을 조합했습니다. 이 접근 방식 덕분에 카메라 움직임과 깊이 정보에 대한 수작업 주석이 필요하지 않았습니다. 이 모델은 객체 제어(66.92), 스타일 일관성(84.89), 주관적 품질(71.09) 등 여러 WorldScore 분야에서 우수한 성과를 냈으나, 카메라 제어 부문에서는 WonderWorld의 92.98점에 이어 2위를 차지했습니다.

 

하드웨어 요구 사항 및 제한 사항

Voyager를 운영하려면 상당한 컴퓨팅 리소스가 필요하며, 540p 해상도 출력을 위해 최소 60GB의 GPU 메모리가 필요하고, 최적의 결과를 위해 텐센트는 80GB를 권장합니다. 이 회사는 단일 및 다중 GPU 구성을 모두 지원하는 코드와 함께 모델 가중치를 Hugging Face에서 제공하고 있습니다.

그러나 이 모델은 유럽 연합, 영국, 대한민국에서의 사용을 제한하는 라이선스 제한이 있습니다. 월간 활성 사용자가 1억 명을 초과하는 상업적 활용의 경우 텐센트와 별도의 라이선스 계약이 필요합니다. 이러한 제한은 텐센트의 훈위안(Hunyuan) 생태계 내 기타 모델에도 적용되며, 이는 회사의 지역별 라이선스 정책을 반영합니다.

 

시장 환경 및 응용 사례

이번 출시로 텐센트는 인터랙티브 3D 세계 생성 시스템을 개발하는 기타 기업들과 어깨를 나란히 하게 되었습니다. 구글은 8월에 Genie 3를 발표했고, 다이나믹스 랩의 Mirage 2는 사진을 플레이 가능한 공간으로 변환할 수 있도록 해줍니다. Voyager는 비디오 제작과 3D 재구성을 중점적으로 다루어, 순수한 인터랙티브 방식과 차별화됩니다.

벤치마크 성과에도 불구하고, 전문가들은 현재의 높은 컴퓨팅 요구사항과 장기간, 일관된 장면 생성의 한계로 인해, 실시간 게임이나 대규모 애플리케이션에서는 즉각적인 적용이 어렵다고 지적합니다. 해당 기술은 AI 기반 가상 세계 창조의 진보를 보여주지만, 대중적 도입은 하드웨어 사양과 라이선스 제한으로 인해 여전히 제약을 받고 있습니다.

댓글 0
전체 345 / 59 페이지
올해 1월 AI 업계에 충격을 안겨준 중국 AI 스타트업 DeepSeek 는 기존 V3 모델의 업그레이드 버전인 V3.1을 공개했다.V3.1은 OpenAI의 최신 모델 GPT-5와 여러 벤치마크에서 견줄 만한 성능을 보이며, 가격경쟁력까지 갖추었다.DeepSeek V3.1은 중국에서 자체 개발된 AI 칩에 맞춰 최적화된 것이 특징이다. 이는 미국의 Nvidia 등 외국 기술 의존도를 낮추고, 미국의 수출 규제에 대응하려는 전략의 일환이다.DeepSeek는 WeChat과 Hugging Face에 모델을 공개하며, 중국 정부의 AI 자립 정책에 부응하고 있다.V3.1은 6850억 파라미터의 초대형 모델로, '미시처-오브-엑스퍼트(mixture-of-experts)' 구조를 통해 쿼리마다 일부만 활성화되어 연산 효율성과 비용 절감을 동시에 잡았다. 또한, 기존 모델이 '즉답형'과 '추론형'으로 분리됐던 것과 달리, 두 가지를 결합해 신속성과 논리적 추론을 함께 제공한다는 점이 돋보인다.
633 조회
0 추천
2025.08.22 등록
구글이 사진 앱에 수정사항을 텍스트로 바로 수정요청하는 기능을 적용.이 기능은 곧 런칭할 픽셀10에서부터 적용이 될 예정.또한 사진이 어떻게 편집되었는지 C2PA 인증 기술로 추적이 가능하다고.아래는 구글 블로그의 소개 내용.Google Photos에서는 이제 사진을 편집할 때 원하는 내용을 텍스트나 음성으로 직접 요청할 수 있습니다. 사용자는 어떤 편집 효과를 적용할지 직접 고르지 않아도 되고, 그저 "차를 배경에서 제거해줘"처럼 자연스럽게 말을 하면 AI가 알아서 반영해 줍니다. 이 기능은 미국의 Pixel 10 기기에서 우선 제공됩니다.새롭게 디자인된 사진 편집기는 직관적 UI와 AI 기반 제안으로 일반 사용자도 쉽게 다양한 효과를 활용할 수 있습니다. 이번에 도입된 대화형 편집 기능으로, 구체적인 요청뿐 아니라 "사진 복원해줘", "색감 보정해줘" 등 복합적인 요구도 한 번에 처리할 수 있습니다. 여러 번 연속해서 추가 요청을 하며 세부 조정도 가능합니다.밝기 조절, 배경 제거 같은 기본 편집뿐 아니라 배경 교체, 파티 모자 추가 등 창의적인 효과 요청도 대화로 손쉽게 처리할 수 있습니다. 사용자가 별도의 편집툴을 배우지 않아도 다양한 AI 편집을 자유롭게 즐길 수 있게 되었습니다.Pixel 10 기기에서는 C2PA(디지털 콘텐츠 인증) 기술이 적용되어, AI가 사진 수정에 개입한 흔적·정보를 확인할 수 있습니다. Google Photos에도 점진적으로 이 기능이 적용되며, 사진이 어떻게 만들어지고 어디에 AI 편집이 사용됐는지 투명하게 확인할 수 있습니다.
564 조회
0 추천
2025.08.22 등록
AI의 진화: 수동적 도구에서 자율적 에이전트로2023년까지 AI는 주로 문서 작성, 정보 조사 등의 보조 업무에 활용되는 수동적 도구였습니다. 하지만 2025년 현재 AI 에이전트는 기억하고 계획하며 독립적으로 행동할 수 있는 자율적 시스템으로 발전했습니다.실제 기업 도입 사례서비스나우(ServiceNow): IT 요청 처리를 완전 자동화하여 직원이 소프트웨어 설치나 라이선스 갱신을 요청하면 에이전트가 전 과정을 처리깃허브 코파일럿(GitHub Copilot): 개발자의 의도를 이해하고 반복적인 코딩 작업을 자동 수행하는 에이전트 모드 도입시스코 웹엑스(Webex): 고객 상담, 실시간 통화 지원, 대화 요약 및 감정 분석까지 여러 AI 에이전트가 협업하여 고객 지원 업무 처리성공 요인과 한계AI 에이전트는 명확하고 표준화된 절차를 따르는 작업에서 뛰어난 성과를 보입니다. 최근에는 복잡한 비즈니스 분석까지 수행할 수 있도록 발전하고 있지만, 여전히 작업 완료 시점을 정확히 판단하지 못하는 문제가 있습니다.도입 시 고려사항업무 프로세스 재설계: 기존 업무 방식에 AI를 단순히 추가하는 것이 아닌, 에이전트 중심의 업무 프로세스로 근본적 재설계 필요신뢰성 확보: 안전 규칙, 테스트 시스템, 명확한 기록 체계 구축이 필수새로운 역할 창출: 에이전트 관리, 모니터링, 컴플라이언스 점검을 담당하는 새로운 직무 등장 예상향후 전망앞으로 2년 내에 AI 에이전트는 고객 지원과 소프트웨어 개발 영역에서 일상적인 도구가 될 것으로 예상됩니다. 클라우드 플랫폼들도 에이전트 개발부터 운영까지 통합 솔루션을 제공할 가능성이 높습니다.
567 조회
0 추천
2025.08.21 등록
애플의 인공지능 기능에 대해 부정적인 뉴스가 나오면서 시리의 활용에 대해 조사한 결과가 나오고 있다.https://9to5mac.com/2025/08/20/seven-years-later-people-still-havent-changed-how-they-use-siri/YouGov 설문조사에 따르면, 사용자의 대다수는 2018년 이후로도 Siri와 다른 음성 비서를 여전히 다섯 가지 기본 용도로 사용하고 있다. 가장 많이 사용하는 기능은 날씨 확인(59%), 음악 재생(51%), 웹 검색(47%), 타이머/알람 설정(40%), 핸즈프리 전화 걸기(39%)이다사용자들은 Siri가 기본적인 명령만 이해하도록 적응했으며, 새로운 AI 음성 모드가 나오더라도 기존 사용자들이 이를 익히는 데는 시간이 걸릴 것으로 보고 있다. 또한 새로운 Siri가 나와도 2027년쯤에는 사용자 경험이 크게 개선되길 기대하고 있다.원래부터 거의 모든 사용자가 지금 하는 행동을 7년 전에도 할 수 있었을 정도로 Siri 사용은 정체되어 있다.일부 사용자들은 음성 비서가 기대만큼 똑똑하지 않고, 정확한 답변을 제공하지 못해 답답함을 느끼고 있다.전반적으로 사용자들은 Siri의 기본 기능에는 만족하지만, 더 복잡한 작업을 수행하거나 자연스러운 대화를 기대하는 데는 한계가 있으며 이는 앞으로 개선이 필요한 점으로 남아 있다
573 조회
0 추천
2025.08.21 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입