AI 뉴스

텐센트의 새로운 AI가 사진을 플레이 가능한 3D 월드로 변환

페이지 정보

작성자 xtalfi
작성일 2025.09.05 16:06
836 조회
0 추천
0 비추천

본문

e1e6f12b805b2d2eaf0381a19f21d286eEqD.jpg

(퍼플렉시티가 정리한 기사)

Tencent은 단일 이미지를 탐색 가능한 3D 세계로 변환하는 오픈소스 AI 모델인 HunyuanWorld-Voyager를 출시했습니다. 이 모델은 스탠퍼드 대학교의 WorldScore 벤치마크에서 77.62라는 최고 종합 점수를 달성해 WonderWorld(72.69)와 CogVideoX-I2V(62.15) 등 경쟁 모델을 능가했습니다.

HunyuanWorld-Voyager는 7월에 공개된 Tencent의 이전 HunyuanWorld 1.0 모델을 기반으로 합니다. 새로운 시스템은 RGB 비디오와 깊이 정보를 동시에 생성해 사용자가 키보드나 조이스틱 컨트롤을 통해 가상 환경을 탐색할 수 있게 합니다. 9월 2일 Tencent의 발표에 따르면, 이 모델은 업계 최초로 네이티브 3D 재구성 기능을 갖춘 초장거리 세계 모델입니다.

 

기술 혁신과 성과

이 모델은 이전에 생성된 3D 포인트를 저장하는 "월드 캐시" 메커니즘을 사용하여 확장된 가상 공간에서 일관성 있는 탐색이 가능합니다. 기존의 비디오 생성 방식과 달리, Voyager는 49개의 프레임이 포함된 2.5초 길이의 클립을 생성하며, 이를 이어 붙이면 더 긴 시퀀스도 만들 수 있습니다. 시스템은 캐시에 저장된 3D 포인트를 새로운 카메라 뷰에 투영하여, 다른 월드 생성 모델에서 흔히 발생하는 시각적 결함을 피하면서 공간적 일관성을 유지합니다.

Tencent는 10만 개 이상의 비디오 클립을 분석한 자동화된 데이터 파이프라인을 통해 Voyager를 학습시켰으며, 실제 영상과 Unreal Engine의 합성 렌더 파일을 조합했습니다. 이 접근 방식 덕분에 카메라 움직임과 깊이 정보에 대한 수작업 주석이 필요하지 않았습니다. 이 모델은 객체 제어(66.92), 스타일 일관성(84.89), 주관적 품질(71.09) 등 여러 WorldScore 분야에서 우수한 성과를 냈으나, 카메라 제어 부문에서는 WonderWorld의 92.98점에 이어 2위를 차지했습니다.

 

하드웨어 요구 사항 및 제한 사항

Voyager를 운영하려면 상당한 컴퓨팅 리소스가 필요하며, 540p 해상도 출력을 위해 최소 60GB의 GPU 메모리가 필요하고, 최적의 결과를 위해 텐센트는 80GB를 권장합니다. 이 회사는 단일 및 다중 GPU 구성을 모두 지원하는 코드와 함께 모델 가중치를 Hugging Face에서 제공하고 있습니다.

그러나 이 모델은 유럽 연합, 영국, 대한민국에서의 사용을 제한하는 라이선스 제한이 있습니다. 월간 활성 사용자가 1억 명을 초과하는 상업적 활용의 경우 텐센트와 별도의 라이선스 계약이 필요합니다. 이러한 제한은 텐센트의 훈위안(Hunyuan) 생태계 내 기타 모델에도 적용되며, 이는 회사의 지역별 라이선스 정책을 반영합니다.

 

시장 환경 및 응용 사례

이번 출시로 텐센트는 인터랙티브 3D 세계 생성 시스템을 개발하는 기타 기업들과 어깨를 나란히 하게 되었습니다. 구글은 8월에 Genie 3를 발표했고, 다이나믹스 랩의 Mirage 2는 사진을 플레이 가능한 공간으로 변환할 수 있도록 해줍니다. Voyager는 비디오 제작과 3D 재구성을 중점적으로 다루어, 순수한 인터랙티브 방식과 차별화됩니다.

벤치마크 성과에도 불구하고, 전문가들은 현재의 높은 컴퓨팅 요구사항과 장기간, 일관된 장면 생성의 한계로 인해, 실시간 게임이나 대규모 애플리케이션에서는 즉각적인 적용이 어렵다고 지적합니다. 해당 기술은 AI 기반 가상 세계 창조의 진보를 보여주지만, 대중적 도입은 하드웨어 사양과 라이선스 제한으로 인해 여전히 제약을 받고 있습니다.

댓글 0
전체 561 / 100 페이지
(퍼플렉시티가 정리한 기사)Google은 Android, iOS, 웹 플랫폼 전반에서 Gemini AI 앱에 오디오 파일 업로드 기능을 추가하여 사용자들의 압도적인 수요에 응답했습니다. Google Labs 및 Gemini 부사장 Josh Woodward는 오디오 지원이 앱 출시 이후 사용자들이 요청한 "가장 많은 요청"이었다고 X에서 발표했습니다.이 기능을 통해 사용자는 MP3, WAV, M4A 등 일반적인 오디오 파일 형식을 앱의 업로드 인터페이스를 통해 직접 업로드할 수 있습니다. 무료 사용자는 하루 5번의 프롬프트로 총 10분 길이의 오디오를 처리할 수 있으며, Google AI Pro 또는 AI Ultra 플랜 구독자는 최대 3시간 분량의 오디오 업로드로 훨씬 더 많은 용량을 제공받습니다.멀티모달 AI 역량 확장이 오디오 기능은 사용자가 Gemini와 상호작용하는 방식을 변화시키며, 인터뷰를 기록하거나 음성 메모를 분석하고 강의 녹음을 검색 가능한 콘텐츠로 변환하는 등 새로운 사용 사례를 가능하게 합니다. 사용자는 이제 회의 녹음을 업로드하여 실행 항목이 포함된 요약을 요청하거나 대학 강의를 제출해 학습 가이드 생성을 요청할 수 있습니다.이번 업데이트는 Gemini를 수개월 전부터 오디오 업로드 기능을 지원해 온 OpenAI의 ChatGPT와 같은 경쟁업체들과 기능적 균형에 더 가까워지게 합니다. Android Police에 따르면, 올해 초 파일 업로드가 제공된 이후로 오디오 지원이 없었던 것은 "이상한 누락"이었다고 합니다.더 넓어진 제미니 생태계 업데이트오디오 기능과 함께, 구글은 AI 모드 검색 경험을 인도어, 인도네시아어, 일본어, 한국어, 브라질 포르투갈어 등 5개 새로운 언어로 확장했습니다. 이번 확장에서는 Gemini 2.5 기술의 맞춤형 버전을 활용하여 단순 번역을 넘어 문화적으로 적합한 답변을 제공합니다.구글은 또한 NotebookLM 연구 보조 도구를 80개 이상의 언어에서 사용자 맞춤형 보고서 형식을 지원하도록 업그레이드하여, 사용자가 업로드한 자료로부터 학습 가이드, 요약 문서, 블로그 글, 퀴즈 등을 생성할 수 있도록 했습니다. 이제 이 플랫폼은 사용자의 선호도에 따라 특정 구조, 스타일, 톤으로 보고서를 작성할 수 있습니다.오디오 업로드 기능은 빠르게 진화하는 인공지능 분야에서 멀티모달 기능의 중요성이 커지고 있는 가운데 구글이 자사의 AI 도구를 더욱 다양하고 경쟁력 있게 만들기 위한 지속적인 노력을 보여줍니다. 이러한 기능은 사용자 참여와 생산성 향상에 중요하게 작용합니다.
885 조회
0 추천
2025.09.11 등록
KBS가 만든 다큐 'AI 시대, 인간의 일'모든 산업에 AI가 혁명적으로 도입되는 지금, 일자리 우려가 많습니다.한번 볼만한 내용입니다.요약- AI 도입이 빠르게 확산: 자동차 공장과 물류창고 등 생산현장에 AI 기반 로봇과 휴머노이드가 투입되어, 인간의 일자리가 줄어들고 있음.- AI는 인간 능력의 '증폭기': 한 사람이 AI를 활용해 여러 업무(시장조사, 코딩, 광고제작 등)를 동시에 처리할 수 있게 되면서 직급, 부서의 의미가 약해지고 신입채용도 감소.- AI의 문제해결 능력: 의료영상 판독, 축산·물류관리 등 데이터가 충분한 분야에서 AI가 빠르고 정확한 해법을 제시. 생성형 AI는 영상 제작 등 창작 과정 자체를 혁신.- 일자리 위기와 해법도 AI: AI 활용 능력이 곧 생존력이 되면서, AI를 잘 활용하는 개인과 기업만이 살아남음. 국가 차원에서도 'AI 주권'과 세계 2위 전략의 필요성 강조.
736 조회
0 추천
2025.09.10 등록
Anthropic의 Claude AI가 채팅창에서 직접 PDF, 파워포인트 슬라이드, 엑셀 스프레드시트, 워드 문서를 생성하고 편집할 수 있는 새로운 기능을 9일 출시했다.이 기능은 사용자가 필요한 파일을 설명하고 관련 데이터를 업로드하면 Claude가 개인용 컴퓨터 환경에서 코드를 작성해 즉시 사용 가능한 파일을 생성해준다. 파일 생성 기능은 현재 Max(월 100달러, 약 13만 8,500원), Team, Enterprise 플랜 사용자에게 프리뷰로 제공되며, Pro 사용자는 몇 주 내에 접근할 수 있게 된다. PDF 보고서를 파워포인트 슬라이드로 변환하거나 원시 데이터를 차트와 통계 분석이 포함된 완성된 문서로 변환하는 등 포맷 간 작업도 지원한다.사용자는 설정에서 "업그레이드된 파일 생성 및 분석" 기능을 활성화한 후 완성된 문서를 다운로드하거나 구글 드라이브에 직접 저장할 수 있다.
831 조회
0 추천
2025.09.10 등록
(퍼플렉시티가 정리한 기사)과학기술정보통신부가 9일 ‘독자 AI 파운데이션 모델’ 프로젝트 착수식을 개최하며, 한국형 인공지능(AI) 개발 경쟁의 신호탄을 쏘아 올렸다. 네이버클라우드, 업스테이지, SK텔레콤, NC AI, LG AI연구원 등 5개 정예팀이 ‘K-AI’ 명칭을 공식 부여받고 2000억원 규모의 정부 지원을 받아 글로벌 수준의 AI 모델 개발에 나선다.이재명 정부의 ‘AI 3대 강국’ 비전을 실현하기 위한 핵심 프로젝트로, 6개월 이내 출시된 글로벌 AI 모델의 95% 이상 성능을 목표로 설정했다. 앞으로 2027년까지 단계별 평가를 통해 최종 2개팀이 ‘K-AI 모델’을 출시할 예정이다.5개 정예팀, AI 주권 확립 의지 다져이날 착수식에는 배경훈 과기정통부 장관을 비롯해 정보통신산업진흥원 박윤규 원장, 5개 정예팀 대표들이 참석해 도전 의지를 다졌다.배 장관은 격려사를 통해 “대한민국 AI 강국 도약을 위한 사명감을 갖고 글로벌 파급력 있는 AI 모델 개발을 목표로 정예팀이 하나가 돼 역량을 집중하길 바란다”고 밝혔다. 그는 또한 “‘모두의 AI’ 생태계 확산을 위한 더 큰 도전에 임해달라”고 당부했다.5개 정예팀 대표들도 각각의 비전을 제시했다. 김유원 네이버클라우드 대표는 “AI 주권 확립이라는 사명감으로 대한민국의 사회·문화적 맥락을 가장 잘 이해하는 AI를 만들겠다”고 말했다. 김성훈 업스테이지 대표는 “글로벌에서 인정받은 기술력과 실행력을 바탕으로 한국 AI 기술 주도권을 확보하겠다”고 강조했다.K-AI 앰블럼 수여와 단계별 평가 체계착수식에서는 ‘K-AI’ 앰블럼 수여식도 진행됐다. 정예팀 주관기관뿐 아니라 참여기관 모두 ‘K-AI’ 앰블럼을 자율적으로 활용할 수 있게 됐다. 정부는 이를 통해 중소기업·스타트업의 자긍심 고취와 생태계 확장을 지원한다는 계획을 밝혔다.올해 말에는 5개팀을 4개팀으로 압축하는 1차 단계평가가 예정돼 있다. 평가에는 국민·전문가 심사, 벤치마크 검증, 파생 AI 모델 수 평가 등이 포함되며, 12월 말에는 대국민 컨테스트도 개최된다. 정부는 단계평가의 공정성과 전문성을 위해 평가 1개월 전 세부 추진방안을 공개할 계획이다.정부는 GPU 대여에 1500억원, 데이터 확보에 620억원, 인재 영입 비용에 250억원 등 총 2000억원이 넘는 예산을 지원한다. 각 팀에는 단계별로 엔비디아 H100 1000장 또는 B200 500~2000장이 제공된다.
831 조회
0 추천
2025.09.09 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입