Loading...

기타

마이크로소프트가 오픈소스로 공개한 실시간 음성 합성 기술

페이지 정보

작성자 바이브입니다만
작성일 12.10 11:00
53 조회
0 추천
0 비추천

본문

마이크로소프트가 실시간 음성 합성 기술 하나를 오픈 소스 프레임 워크로 출시했습니다. 

VibeVoice-Realtime-0.5B

이 모델은 300ms의 초저지연으로 자연스럽고 표현력 풍부한 대화형 오디오를 생성하며, 최대 90분 길이의 다중 화자 음성 합성이 가능하다고 합니다.

Qwen2.5 기반의 LLM과 확산 아키텍처를 활용하여 자체 평가시 Gemini 2.5 Pro 및 ElevenLabs와 같은 선두 시스템보다 우수한 품질을 제공한다고 하네요

 

현재는 영어 및 중국어만 가능합니다.

언제나 그렇듯이 파이썬은 필수

https://github.com/microsoft/VibeVoice

댓글 0
전체 185 / 1 페이지
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입