diff-svc: timbral transfer と pitch correction のための diffusion-based singing voice conversion system
diff-svc: timbral transfer と pitch correction のための diffusion-based singing voice conversion system
何を解決するか
歌唱音声をある人から別の人へと変換すること(timbre conversion)を可能にし、元のメロディを維持しながら基本的な pitch correction をサポートします。
仕組み
このプロジェクトは diffusion models を使用して、入力された歌唱音声をターゲットの timbre に変換します。オーディオ処理には Hubert や ContentVec といったコンポーネントを利用し、さまざまなオーディオ形式とサンプリングレート(最大 44.1kHz)をサポートしています。
対象者
ミュージシャン、オーディオエンジニア、および AI 駆動の singing voice conversion と timbre transfer に興味がある研究者。
ハイライト
- 44.1kHz での高音質オーディオをサポート。
- 基本的な pitch correction 機能が含まれています。
- 幅広い入力および出力オーディオ形式をサポート。
- 推論時の長いオーディオファイルに対する自動スライシング機能を搭載。
Sources
- undefinedprophesier/diff-svc