CosyVoice: 대규모 언어 모델을 기반으로 한 확장 가능한 다국어 제로샷 텍스트‑투‑스피치 합성기

해결하고자 하는 문제

CosyVoice는 고품질의 제로샷 다국어 음성 합성을 위해 설계된 대규모 언어 모델(LLM) 기반 텍스트‑투‑스피치(TTS) 시스템입니다. 특히 “in‑the‑wild” 상황에서 다양한 언어와 방언에 걸쳐 화자 유사성 및 내용 일관성을 유지하면서 자연스러운 음성을 생성하는 문제를 해결합니다.

작동 원리

이 시스템은 LLM을 활용해 음성을 생성합니다. 최신 버전(Fun‑CosyVoice 3.0)은 스케일업과 사후 학습에 중점을 두어 운율의 자연스러움과 화자 유사성을 향상시킵니다. 제로샷 보이스 클로닝을 지원하여 짧은 샘플만으로도 화자의 목소리를 모방할 수 있으며, 대규모 재학습이 필요하지 않습니다. 또한 전통적인 프런트엔드 모듈 없이도 숫자와 기호를 처리하는 텍스트 정규화 과정을 포함합니다.

대상 사용자

이 프로젝트는 다국어 및 교차 언어 합성이 가능한 확장성 높고 고성능의 TTS 시스템이 필요한 개발자와 연구자를 위한 것이며, 낮은 지연 시간 스트리밍을 요구하는 프로덕션 수준의 오디오 애플리케이션을 구축하는 사람들에게도 적합합니다.

주요 특징

다국어 및 방언 지원: 9개의 주요 언어와 18개 이상의 중국어 방언/억양을 포괄합니다.
제로샷 보이스 클로닝: 다국어 및 교차 언어 보이스 클로닝을 지원합니다.
저지연: 오디오 스트리밍 지연을 150ms까지 낮출 수 있습니다.
제어 가능성: 핀인 및 영어 음소에 대한 발음 인페인팅, 감정·속도·볼륨 조절 명령을 지원합니다.
배포 옵션: 가속 추론을 위한 vLLM 및 Nvidia TensorRT‑LLM과 호환됩니다.

SUMMARY: 고화자 유사성과 저지연 스트리밍을 갖춘 제로샷 다국어 음성 합성을 위한 LLM 기반 텍스트‑투‑스피치 시스템.

TITLE: CosyVoice: 대규모 언어 모델을 기반으로 한 확장 가능한 다국어 제로샷 텍스트‑투‑스피치 합성기

CosyVoice: 대규모 언어 모델을 기반으로 한 확장 가능한 다국어 제로샷 텍스트‑투‑스피치 합성기

CosyVoice: 대규모 언어 모델을 기반으로 한 확장 가능한 다국어 제로샷 텍스트‑투‑스피치 합성기

해결하고자 하는 문제

작동 원리

대상 사용자

주요 특징

Sources