diff-svc: timbral transfer と pitch correction のための diffusion-based singing voice conversion system

diff-svc: timbral transfer と pitch correction のための diffusion-based singing voice conversion system

何を解決するか

歌唱音声をある人から別の人へと変換すること(timbre conversion)を可能にし、元のメロディを維持しながら基本的な pitch correction をサポートします。

仕組み

このプロジェクトは diffusion models を使用して、入力された歌唱音声をターゲットの timbre に変換します。オーディオ処理には Hubert や ContentVec といったコンポーネントを利用し、さまざまなオーディオ形式とサンプリングレート(最大 44.1kHz)をサポートしています。

対象者

ミュージシャン、オーディオエンジニア、および AI 駆動の singing voice conversion と timbre transfer に興味がある研究者。

ハイライト

  • 44.1kHz での高音質オーディオをサポート。
  • 基本的な pitch correction 機能が含まれています。
  • 幅広い入力および出力オーディオ形式をサポート。
  • 推論時の長いオーディオファイルに対する自動スライシング機能を搭載。

Sources