CosyVoice: 基于大语言模型的可扩展多语言零样本文本转语音合成器
CosyVoice: 基于大语言模型的可扩展多语言零样本文本转语音合成器
它解决了什么问题
CosyVoice 是一个基于大语言模型 (LLM) 的文本转语音 (TTS) 系统,旨在实现高质量、零样本的多语言语音合成。它解决了在不同语言和方言中保持说话人相似度和内容一致性,从而创造出自然听感的语音这一挑战,特别是在“野外”场景下。
它是如何工作的
该系统利用 LLM 来生成语音。最新版本 (Fun-CosyVoice 3.0) 专注于通过规模化和后训练来提高韵律自然度和说话人相似度。它支持零样本声音克隆,这意味着它可以根据一段短样本模仿说话人的声音,而无需进行大规模的重新训练。它还包括一个文本归一化过程,可以处理数字和符号,而无需传统的模块。
适用人群
该项目适用于需要可扩展、高性能 TTS 系统,且能够进行多语言和跨语言合成的开发人员和研究人员,以及正在构建需要低延迟流式传输的生产级音频应用的人员。
亮点
- 多语言与方言支持:覆盖 9 种常用语言和超过 18 种中文方言/口音。
- 零样本声音克隆:支持多语言和跨语言声音克隆。
- 低延迟:音频输出流式传输延迟低至 150ms。
- 可控性:支持针对拼音和英语音素的发音修复,以及针对情感、语速和音量的指令。
- 部署选项:兼容 vLLM 和 Nvidia TensorRT-LLM 以实现加速推理。
Sources
- undefinedFunAudioLLM/CosyVoice