diff-svc:一种基于扩散的歌声转换系统,用于音色迁移和音高校正
diff-svc:一种基于扩散的歌声转换系统,用于音色迁移和音高校正
它解决了什么
它能够在保持原始旋律的同时,将歌声从一个人转换为另一个人(音色转换),并支持基础的音高校正。
工作原理
该项目使用扩散模型将输入的歌声转换为目标音色。它利用 Hubert 和 ContentVec 等组件进行音频处理,并支持多种音频格式和采样率(最高 44.1kHz)。
适用人群
音乐人、音频工程师以及对 AI 驱动的歌声转换和音色迁移感兴趣的研究者。
亮点
- 支持 44.1kHz 的高保真音频。
- 包含基础的音高校正功能。
- 支持广泛的输入和输出音频格式。
- 在推理时对长音频文件提供自动切片功能。
Sources
- undefinedprophesier/diff-svc