CosyVoice: 一款基於大型語言模型的可擴展多語言零樣本文字轉語音合成器

它解決了什麼問題

CosyVoice 是一個基於大型語言模型 (LLM) 的文字轉語音 (TTS) 系統，旨在實現高品質、零樣本的多語言語音合成。它解決了在不同語言和方言中保持說話者相似度與內容一致性的挑戰，特別是在「野外」場景中產生自然聽感的語音。

運作原理

該系統利用 LLM 來生成語音。最新版本 (Fun-CosyVoice 3.0) 專注於擴展規模與後訓練，以提升韻律自然度與說話者相似度。它支援零樣本聲音複製，這意味著它可以在不需要大量重新訓練的情況下，根據一段短樣本模仿說話者的聲音。它還包含一個文字正規化過程，可以處理數字和符號，而不需要傳統的前端模組。

目標對象

此專案適合需要可擴展、高性能 TTS 系統，且具備多語言與跨語言合成能力的開發者和研究人員，以及正在構建需要低延遲串流的生產級音訊應用程式的人員。

重點亮點

多語言與方言支援：涵蓋 9 種常見語言和超過 18 種中文方言/口音。
零樣本聲音複製：支援多語言與跨語言聲音複製。
低延遲：實現了低至 150ms 的音訊輸出串流延遲。
可控性：支援針對拼音和英文音素的發音補全 (inpainting)，以及情緒、速度和音量的指令。
部署選項：與 vLLM 和 Nvidia TensorRT-LLM 相容，可用於加速推理。

CosyVoice: 一款基於大型語言模型的可擴展多語言零樣本文字轉語音合成器

CosyVoice: 一款基於大型語言模型的可擴展多語言零樣本文字轉語音合成器

它解決了什麼問題

運作原理

目標對象

重點亮點

Sources