diff-svc: 一個基於擴散模型的歌聲轉換系統，用於音色轉換與音高修正

diff-svc: 一個基於擴散模型的歌聲轉換系統，用於音色轉換與音高修正

它解決了什麼問題

它能夠將歌聲從一個人轉換為另一個人（音色轉換），同時保持原始旋律並支援基本的音高修正。

運作原理

該專案使用擴散模型將輸入的歌聲轉換為目標音色。它利用 Hubert 和 ContentVec 等組件進行音訊處理，並支援多種音訊格式與取樣率（最高達 44.1kHz）。

目標對象

對 AI 驅動的歌聲轉換與音色轉換感興趣的音樂家、音訊工程師及研究人員。

重點功能

支援 44.1kHz 的高保真音訊。
包含基本的音高修正功能。
支援廣泛的輸入與輸出音訊格式。
在推論過程中支援長音訊檔案的自動切片功能。

Sources

undefinedprophesier/diff-svc