diff-svc:一种基于扩散的歌声转换系统,用于音色迁移和音高校正

diff-svc:一种基于扩散的歌声转换系统,用于音色迁移和音高校正

它解决了什么

它能够在保持原始旋律的同时,将歌声从一个人转换为另一个人(音色转换),并支持基础的音高校正。

工作原理

该项目使用扩散模型将输入的歌声转换为目标音色。它利用 Hubert 和 ContentVec 等组件进行音频处理,并支持多种音频格式和采样率(最高 44.1kHz)。

适用人群

音乐人、音频工程师以及对 AI 驱动的歌声转换和音色迁移感兴趣的研究者。

亮点

  • 支持 44.1kHz 的高保真音频。
  • 包含基础的音高校正功能。
  • 支持广泛的输入和输出音频格式。
  • 在推理时对长音频文件提供自动切片功能。

Sources