ChatTTS:它是什么、解决了什么问题以及为何受到关注

ChatTTS:它是什么、解决了什么问题以及为何受到关注

它解决了什么

ChatTTS 是一种专为日常对话场景(如 LLM 助手)设计的生成式语音模型。它旨在提供比传统 TTS 模型更自然、更富表现力的语音合成,后者往往听起来机械化或缺乏人类语言的对话细微差别。

工作原理

ChatTTS 使用自回归风格的系统从文本生成音频。它在超过 100,000 小时的中英文音频数据上进行训练。开源版本是基于 40,000 小时数据的预训练模型。它通过特殊标记(如 [laugh][uv_break][lbreak])实现对韵律特征的细粒度控制,并通过采样说话人嵌入支持多说话人。

适用人群

  • AI 开发者:构建需要类人语音输出的对话式 AI 代理或 LLM 助手。
  • 研究人员:研究对话任务中的语音合成与韵律的个人。
  • 内容创作者:希望生成富有表现力、对话驱动的音频片段的用户。

亮点

  • 对话优化:专为对话调优,实现更自然的语音模式。
  • 细粒度韵律控制:能够预测并控制笑声、停顿和插入语。
  • 多说话人支持:通过说话人嵌入支持多说话人和音色恢复。
  • 双语支持:目前支持英语和中文。
  • 流式生成:支持流式音频生成,降低延迟。

Sources