Loading...

AI 뉴스

텐센트의 새로운 AI가 사진을 플레이 가능한 3D 월드로 변환

페이지 정보

작성자 xtalfi
작성일 2025.09.05 16:06
1,712 조회
0 추천
0 비추천

본문

e1e6f12b805b2d2eaf0381a19f21d286eEqD.jpg

(퍼플렉시티가 정리한 기사)

Tencent은 단일 이미지를 탐색 가능한 3D 세계로 변환하는 오픈소스 AI 모델인 HunyuanWorld-Voyager를 출시했습니다. 이 모델은 스탠퍼드 대학교의 WorldScore 벤치마크에서 77.62라는 최고 종합 점수를 달성해 WonderWorld(72.69)와 CogVideoX-I2V(62.15) 등 경쟁 모델을 능가했습니다.

HunyuanWorld-Voyager는 7월에 공개된 Tencent의 이전 HunyuanWorld 1.0 모델을 기반으로 합니다. 새로운 시스템은 RGB 비디오와 깊이 정보를 동시에 생성해 사용자가 키보드나 조이스틱 컨트롤을 통해 가상 환경을 탐색할 수 있게 합니다. 9월 2일 Tencent의 발표에 따르면, 이 모델은 업계 최초로 네이티브 3D 재구성 기능을 갖춘 초장거리 세계 모델입니다.

 

기술 혁신과 성과

이 모델은 이전에 생성된 3D 포인트를 저장하는 "월드 캐시" 메커니즘을 사용하여 확장된 가상 공간에서 일관성 있는 탐색이 가능합니다. 기존의 비디오 생성 방식과 달리, Voyager는 49개의 프레임이 포함된 2.5초 길이의 클립을 생성하며, 이를 이어 붙이면 더 긴 시퀀스도 만들 수 있습니다. 시스템은 캐시에 저장된 3D 포인트를 새로운 카메라 뷰에 투영하여, 다른 월드 생성 모델에서 흔히 발생하는 시각적 결함을 피하면서 공간적 일관성을 유지합니다.

Tencent는 10만 개 이상의 비디오 클립을 분석한 자동화된 데이터 파이프라인을 통해 Voyager를 학습시켰으며, 실제 영상과 Unreal Engine의 합성 렌더 파일을 조합했습니다. 이 접근 방식 덕분에 카메라 움직임과 깊이 정보에 대한 수작업 주석이 필요하지 않았습니다. 이 모델은 객체 제어(66.92), 스타일 일관성(84.89), 주관적 품질(71.09) 등 여러 WorldScore 분야에서 우수한 성과를 냈으나, 카메라 제어 부문에서는 WonderWorld의 92.98점에 이어 2위를 차지했습니다.

 

하드웨어 요구 사항 및 제한 사항

Voyager를 운영하려면 상당한 컴퓨팅 리소스가 필요하며, 540p 해상도 출력을 위해 최소 60GB의 GPU 메모리가 필요하고, 최적의 결과를 위해 텐센트는 80GB를 권장합니다. 이 회사는 단일 및 다중 GPU 구성을 모두 지원하는 코드와 함께 모델 가중치를 Hugging Face에서 제공하고 있습니다.

그러나 이 모델은 유럽 연합, 영국, 대한민국에서의 사용을 제한하는 라이선스 제한이 있습니다. 월간 활성 사용자가 1억 명을 초과하는 상업적 활용의 경우 텐센트와 별도의 라이선스 계약이 필요합니다. 이러한 제한은 텐센트의 훈위안(Hunyuan) 생태계 내 기타 모델에도 적용되며, 이는 회사의 지역별 라이선스 정책을 반영합니다.

 

시장 환경 및 응용 사례

이번 출시로 텐센트는 인터랙티브 3D 세계 생성 시스템을 개발하는 기타 기업들과 어깨를 나란히 하게 되었습니다. 구글은 8월에 Genie 3를 발표했고, 다이나믹스 랩의 Mirage 2는 사진을 플레이 가능한 공간으로 변환할 수 있도록 해줍니다. Voyager는 비디오 제작과 3D 재구성을 중점적으로 다루어, 순수한 인터랙티브 방식과 차별화됩니다.

벤치마크 성과에도 불구하고, 전문가들은 현재의 높은 컴퓨팅 요구사항과 장기간, 일관된 장면 생성의 한계로 인해, 실시간 게임이나 대규모 애플리케이션에서는 즉각적인 적용이 어렵다고 지적합니다. 해당 기술은 AI 기반 가상 세계 창조의 진보를 보여주지만, 대중적 도입은 하드웨어 사양과 라이선스 제한으로 인해 여전히 제약을 받고 있습니다.

댓글 0
전체 1,244 / 291 페이지
퍼플렉시티가 구글에게 크롬을 사겠다고 제안했다.는 보도가 월스트리저널을 통해 나왔다.https://www.wsj.com/tech/perplexity-ai-google-chrome-offer-5ddb7a22퍼플렉시티는 345억달러(47조8000억원)에 크롬을 인수하겠다고 구글에 제안했다고 12일(현지시간) 보도했다.퍼플렉시티는 구글 에게 보낸 서한에서 크롬 인수 제안이 “크롬을 유능하고 독립적인 운영자에게 맡김으로써 최고 수준의 공익에 부합하는 반독점 구제책을 만족시키기 위한 것”이라고 재언했다.퍼플렉시티의 이번 제안은 미 법원이 온라인 검색 시장 경쟁 회복을 위한 방안을 제시할 예정인 가운데 나왔다.워싱턴 D.C. 연방법원 판사는 지난해 8월 미 법무부가 제기한 검색 시장 반독점 소송에서 구글의 시장 지위를 불법적인 독점이라고 판결했다. 이어 지난 4월부터 독점 해소 방안에 대한 재판이 진행됐으며, 법무부는 방안 중 하나로 구글 크롬 매각을 제안한 바 있다.물론 구글이 이에 응할지는 회의적이다.
2158 조회
0 추천
2025.08.13 등록
오픈AI가 출시하고 불만이 많아진 GPT-5를 잘쓰기 위한 프롬프트 가이드를 공개했다.https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide?ref=blog.secondbrush.co.kr이 가이드에서는 모델을 학습하고 실제 작업에 적용해 온 경험을 바탕으로 모델 출력의 품질을 극대화하기 위한 프롬프트 팁을 다루고 있다.. 에이전트 작업 성능 향상, 명령어 준수 보장, 새로운 API 기능 활용, 프런트엔드 및 소프트웨어 엔지니어링 작업을 위한 코딩 최적화 등의 개념을 살펴보고, GPT-5를 활용한 AI 코드 편집기 Cursor의 프롬프트 튜닝 작업에 대한 핵심 인사이트도 제공한다고..가이드에 따르면,"모범 사례를 적용하고 가능한 한 표준 도구를 도입함으로써 상당한 성과를 거두었으며, 이 가이드와 저희가 개발한 프롬프트 최적화 도구가 GPT-5 사용의 발판이 되기를 바랍니다. 하지만 항상 그렇듯이 프롬프트는 모든 경우에 적용되는 것은 아니라는 점을 명심하십시오. 여기에 제시된 기반을 바탕으로 실험을 수행하고 반복하여 문제에 대한 최상의 해결책을 찾을 것을 권장합니다."라고 되어 있다.Goal: Get enough context fast.목표: 빠르게 충분한 콘텍스트를 얻는다.Parallelize discovery and stop as soon as you can act.탐색을 병렬로 진행하고, 행동할 수 있게 되면 즉시 중단한다.Method:방법:Start broad, then fan out to focused subqueries.먼저 넓게 시작하고, 이후에는 구체적인 하위 쿼리로 확장한다.In parallel, launch varied queries; read top hits per query. Deduplicate paths and cache; don’t repeat queries.다양한 쿼리를 병렬로 실행하고, 각 쿼리의 상위 결과를 읽는다. 경로는 중복 제거하고 캐시에 저장한다. 동일한 쿼리를 반복하지 않는다.Avoid over searching for context. If needed, run targeted searches in one parallel batch.콘텍스트를 지나치게 탐색하지 않는다. 필요할 경우, 한 번의 병렬 배치로 목표 검색을 수행한다.Early stop criteria:조기 중단 기준:You can name exact content to change.변경할 정확한 내용을 지정할 수 있다.Top hits converge (~70%) on one area/path.상위 결과의 약 70%가 한 영역 또는 경로로 모인다.Escalate once:한 번에 에스컬레이션한다:If signals conflict or scope is fuzzy, run one refined parallel batch, then proceed.신호가 상충하거나 범위가 불분명하면, 정제된 병렬 배치를 한 번 실행한 후 진행한다.Depth:깊이:Trace only symbols you’ll modify or whose contracts you rely on; avoid transitive expansion unless necessary.변경하거나 의존하는 심볼만 추적하고, 필요하지 않다면 전이적인 확장은 피한다.Loop:반복:Batch search → minimal plan → complete task.배치 검색 → 최소 계획 → 작업 완료.Search again only if validation fails or new unknowns appear. Prefer acting over more searching.검증에 실패하거나 새로운 미지의 요소가 나타난 경우에만 다시 검색한다. 추가 검색보다는 행동을 우선한다.
2291 조회
0 추천
2025.08.12 등록
Yomiuri Sues U.S. AI Startup over Use of Articles; Perplexity Allegedly Used Over 100,000 News Stories요미우리 신문 3개 자회사가 미국 AI 스타트업인 Perplexity를 상대로 기사와 이미지를 무단으로 이용했다며 소송을 제기했다미우리 측은 퍼플렉시티가 약 12만 건의 디지털 기사와 이미지를 무단으로 복제해 검색엔진 답변에 사용했다고 주장했다.신문사 측은 약 21억7000만 엔의 손해배상을 요구했으며, 기사와 이미지 무단 복제가 저작권법상 복제권 및 공중송신권을 침해했다고 주장했다. 신문사에 따르면, 퍼플렉시티는 기존 검색엔진과 달리 직접 답변을 제공해 언론사 사이트 유입 감소로 광고 수입이 줄었다고 했다.요미우리 측은 언론의 노력과 투자가 AI 기업에 무단으로 이용되고, 공정한 보도를 해치는 결과가 된다고 했다. 이에 대해 퍼플렉시티는 일본 내 오해에 유감을 표하며 사실관계 확인에 노력 중이고, 언론사와의 협력 의향을 밝혔다.요미우리는 이번 소송이 일본 언론사로서는 최초 사례라고 했다. 미국에서도 유사한 소송이 진행 중이라고 밝혔다.
2166 조회
0 추천
2025.08.12 등록
애플이 새로운 시리(Siri) 업그레이드를 준비하고 있으며, 이는 서드파티 앱(Uber, YouTube, Facebook, WhatsApp 등)과 자체 앱(메일, 메시지 등)에서 깊이 있는 통합과 제어가 가능할 것으로 알려졌다..사용자는 음성만으로 사진 검색 및 편집, 인스타그램 댓글 작성, 쇼핑 앱 탐색 및 장바구니 추가 등 앱 내 세부 기능을 조작할 수 있게 된다. 이번 개선의 핵심은 'App Intents' 시스템과 애플의 생성형 AI 'Apple Intelligence'에 있다사실 새로운 시리의 출시는 여러 차례 연기되어 왓다. . 잦은 지연의 원인은 구형 시리 시스템과 신형 LLM(대규모 언어 모델) 아키텍처가 결합된 하이브리드 구조의 버그, 약 1/3 확률의 실패율 등 기술적 문제가 컸던 것으로 알려졌다.
2171 조회
1 추천
2025.08.11 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입