ChatTTS: 這是什麼、解決了什麼問題以及為什麼它正受到關注

ChatTTS: 這是什麼、解決了什麼問題以及為什麼它正受到關注

解決了什麼問題

ChatTTS 是一個專為日常對話場景(例如 LLM 助手)設計的生成式語音模型。與傳統的 TTS 模型相比,其目標是提供更自然且更具表現力的語音合成,因為傳統模型通常聽起來很機械化,或者缺乏人類說話時的對話細微差別。

如何運作

ChatTTS 使用自回歸風格的系統從文本生成音訊。它是在超過 100,000 小時的中英文音訊數據上進行訓練的。開源版本是基於 40,000 小時數據的預訓練模型。它允許透過特殊標記(例如 [laugh], [uv_break], 和 [lbreak])對韻律特徵進行細粒度控制,並透過採樣說話者嵌入(speaker embeddings)來支援多個說話者。

對象是誰

  • AI 開發者:正在構建需要類人語音輸出的對話式 AI 代理或 LLM 助手的人員。
  • 研究人員:在基於對話的任務中研究語音合成和韻律的人員。
  • 內容創作者:想要生成具有表現力、對話驅動的音訊剪輯的使用者。

重點亮點

  • 對話優化:專為對話進行微調,實現更自然的說話模式。
  • 細粒度韻律控制:能夠預測和控制笑聲、停頓和插話。
  • 多說話者支援:透過說話者嵌入(speaker embeddings)支援多個說話者和音色恢復。
  • 雙語支援:目前支援英文和中文。
  • 串流生成:支援串流音訊生成以降低延遲。

Sources