diff-svc: 一個基於擴散模型的歌聲轉換系統,用於音色轉換與音高修正
diff-svc: 一個基於擴散模型的歌聲轉換系統,用於音色轉換與音高修正
它解決了什麼問題
它能夠將歌聲從一個人轉換為另一個人(音色轉換),同時保持原始旋律並支援基本的音高修正。
運作原理
該專案使用擴散模型將輸入的歌聲轉換為目標音色。它利用 Hubert 和 ContentVec 等組件進行音訊處理,並支援多種音訊格式與取樣率(最高達 44.1kHz)。
目標對象
對 AI 驅動的歌聲轉換與音色轉換感興趣的音樂家、音訊工程師及研究人員。
重點功能
- 支援 44.1kHz 的高保真音訊。
- 包含基本的音高修正功能。
- 支援廣泛的輸入與輸出音訊格式。
- 在推論過程中支援長音訊檔案的自動切片功能。
Sources
- undefinedprophesier/diff-svc