diff-svc：一种基于扩散的歌声转换系统，用于音色迁移和音高校正

diff-svc：一种基于扩散的歌声转换系统，用于音色迁移和音高校正

它解决了什么

它能够在保持原始旋律的同时，将歌声从一个人转换为另一个人（音色转换），并支持基础的音高校正。

工作原理

该项目使用扩散模型将输入的歌声转换为目标音色。它利用 Hubert 和 ContentVec 等组件进行音频处理，并支持多种音频格式和采样率（最高 44.1kHz）。

适用人群

音乐人、音频工程师以及对 AI 驱动的歌声转换和音色迁移感兴趣的研究者。

亮点

支持 44.1kHz 的高保真音频。
包含基础的音高校正功能。
支持广泛的输入和输出音频格式。
在推理时对长音频文件提供自动切片功能。

Sources

undefinedprophesier/diff-svc