diff-svc: 一個基於擴散模型的歌聲轉換系統,用於音色轉換與音高修正

diff-svc: 一個基於擴散模型的歌聲轉換系統,用於音色轉換與音高修正

它解決了什麼問題

它能夠將歌聲從一個人轉換為另一個人(音色轉換),同時保持原始旋律並支援基本的音高修正。

運作原理

該專案使用擴散模型將輸入的歌聲轉換為目標音色。它利用 Hubert 和 ContentVec 等組件進行音訊處理,並支援多種音訊格式與取樣率(最高達 44.1kHz)。

目標對象

對 AI 驅動的歌聲轉換與音色轉換感興趣的音樂家、音訊工程師及研究人員。

重點功能

  • 支援 44.1kHz 的高保真音訊。
  • 包含基本的音高修正功能。
  • 支援廣泛的輸入與輸出音訊格式。
  • 在推論過程中支援長音訊檔案的自動切片功能。

Sources