diff-svc: 음색 변환 및 피치 교정을 위한 확산 기반 가창 음성 변환 시스템
diff-svc: 음색 변환 및 피치 교정을 위한 확산 기반 가창 음성 변환 시스템
해결하는 문제
한 사람의 가창 음성을 다른 사람의 음성으로 변환(음색 변환)하면서 원래의 멜로디를 유지하고 기본적인 피치 교정을 지원합니다.
작동 방식
이 프로젝트는 확산 모델(diffusion models)을 사용하여 입력된 가창 음성을 대상 음색으로 변환합니다. 오디오 처리를 위해 Hubert 및 ContentVec와 같은 구성 요소를 활용하며 다양한 오디오 형식과 샘플링 레이트(최대 44.1kHz)를 지원합니다.
대상 사용자
AI 기반 가창 음성 변환 및 음색 변환에 관심이 있는 음악가, 오디오 엔지니어 및 연구원.
주요 특징
- 44.1kHz의 고음질 오디오를 지원합니다.
- 기본적인 피치 교정 기능을 포함합니다.
- 광범위한 입력 및 출력 오디오 형식을 지원합니다.
- 추론 과정에서 긴 오디오 파일을 위한 자동 슬라이싱 기능을 제공합니다.
Sources
- undefinedprophesier/diff-svc