diff-svc: 음색 변환 및 피치 교정을 위한 확산 기반 가창 음성 변환 시스템

해결하는 문제

한 사람의 가창 음성을 다른 사람의 음성으로 변환(음색 변환)하면서 원래의 멜로디를 유지하고 기본적인 피치 교정을 지원합니다.

작동 방식

이 프로젝트는 확산 모델(diffusion models)을 사용하여 입력된 가창 음성을 대상 음색으로 변환합니다. 오디오 처리를 위해 Hubert 및 ContentVec와 같은 구성 요소를 활용하며 다양한 오디오 형식과 샘플링 레이트(최대 44.1kHz)를 지원합니다.

대상 사용자

AI 기반 가창 음성 변환 및 음색 변환에 관심이 있는 음악가, 오디오 엔지니어 및 연구원.

주요 특징

44.1kHz의 고음질 오디오를 지원합니다.
기본적인 피치 교정 기능을 포함합니다.
광범위한 입력 및 출력 오디오 형식을 지원합니다.
추론 과정에서 긴 오디오 파일을 위한 자동 슬라이싱 기능을 제공합니다.

diff-svc: 음색 변환 및 피치 교정을 위한 확산 기반 가창 음성 변환 시스템

diff-svc: 음색 변환 및 피치 교정을 위한 확산 기반 가창 음성 변환 시스템

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources