CosyVoice: 大規模言語モデルに基づくスケーラブルな多言語ゼロショットテキスト読み上げ合成器

CosyVoice: 大規模言語モデルに基づくスケーラブルな多言語ゼロショットテキスト読み上げ合成器

何を解決するか

CosyVoiceは、高品質でゼロショットな多言語音声合成を実現するために設計された、大規模言語モデル(LLM)ベースのテキスト読み上げ(TTS)システムです。これは、特に「in-the-wild」のシナリオにおいて、異なる言語や方言にわたって話者の類似性と内容の一貫性を維持しながら、自然な響きの音声を生成するという課題に対処します。

仕組み

このシステムは、LLMを活用して音声を生成します。最新バージョン(Fun-CosyVoice 3.0)は、韻律の自然さと話者の類似性を向上させるために、スケーリングとポストトレーニングに焦点を当てています。ゼロショット音声クローニングをサポートしており、これは、広範な再学習を必要とせずに、短いサンプルに基づいて話者の声を模倣できることを意味します。また、従来のフロントエンドモジュールを必要とせずに、数字や記号を処理するテキスト正規化プロセスも含まれています。

対象者

このプロジェクトは、多言語および言語横断的な合成が可能なスケーラブルで高性能なTTSシステムを必要とする開発者や研究者、および低遅延ストリーミングを必要とするプロダクション向けのオーディオアプリケーションを構築している人々を対象としています。

ハイライト

  • 多言語および方言サポート: 9つの一般的な言語と18以上の中国語の方言/アクセントをカバーしています。
  • ゼロショット音声クローニング: 多言語および言語横断的な音声クローニングをサポートしています。
  • 低遅延: 150msという低いオーディオ出力ストリーミング遅延を実現しています。
  • 制御可能性: Pinyinおよび英語の音素による発音インペインティング、ならびに感情、速度、音量に関する指示をサポートしています。
  • デプロイメントオプション: 推論を加速させるために、vLLMおよびNvidia TensorRT-LLMと互換性があります。

Sources