CosyVoice: 基于大语言模型的可扩展多语言零样本文本转语音合成器

它解决了什么问题

CosyVoice 是一个基于大语言模型 (LLM) 的文本转语音 (TTS) 系统，旨在实现高质量、零样本的多语言语音合成。它解决了在不同语言和方言中保持说话人相似度和内容一致性，从而创造出自然听感的语音这一挑战，特别是在“野外”场景下。

它是如何工作的

该系统利用 LLM 来生成语音。最新版本 (Fun-CosyVoice 3.0) 专注于通过规模化和后训练来提高韵律自然度和说话人相似度。它支持零样本声音克隆，这意味着它可以根据一段短样本模仿说话人的声音，而无需进行大规模的重新训练。它还包括一个文本归一化过程，可以处理数字和符号，而无需传统的模块。

适用人群

该项目适用于需要可扩展、高性能 TTS 系统，且能够进行多语言和跨语言合成的开发人员和研究人员，以及正在构建需要低延迟流式传输的生产级音频应用的人员。

亮点

多语言与方言支持：覆盖 9 种常用语言和超过 18 种中文方言/口音。
零样本声音克隆：支持多语言和跨语言声音克隆。
低延迟：音频输出流式传输延迟低至 150ms。
可控性：支持针对拼音和英语音素的发音修复，以及针对情感、语速和音量的指令。
部署选项：兼容 vLLM 和 Nvidia TensorRT-LLM 以实现加速推理。

CosyVoice: 基于大语言模型的可扩展多语言零样本文本转语音合成器

CosyVoice: 基于大语言模型的可扩展多语言零样本文本转语音合成器

它解决了什么问题

它是如何工作的

适用人群

亮点

Sources