마이크로소프트가 오픈소스로 공개한 실시간 음성 합성 기술
페이지 정보
작성자
바이브입니다만
작성일
12.10 11:00
본문
마이크로소프트가 실시간 음성 합성 기술 하나를 오픈 소스 프레임 워크로 출시했습니다.
VibeVoice-Realtime-0.5B
이 모델은 300ms의 초저지연으로 자연스럽고 표현력 풍부한 대화형 오디오를 생성하며, 최대 90분 길이의 다중 화자 음성 합성이 가능하다고 합니다.
Qwen2.5 기반의 LLM과 확산 아키텍처를 활용하여 자체 평가시 Gemini 2.5 Pro 및 ElevenLabs와 같은 선두 시스템보다 우수한 품질을 제공한다고 하네요
현재는 영어 및 중국어만 가능합니다.
언제나 그렇듯이 파이썬은 필수
https://github.com/microsoft/VibeVoice
댓글 0