OmniVoice-Studio: zero-shot 클로닝, 비디오 더빙 및 멀티 엔진 음성 합성을 위한 로컬 오픈 소스 보이스 스튜디오

해결하는 문제

OmniVoice Studio는 ElevenLabs와 같은 클라우드 기반 음성 AI 서비스의 완전한 로컬 오픈 소스 대안입니다. 모든 프로세싱을 사용자의 자체 하드웨어에서 실행하여 월간 구독, API 키 및 개인정보 보호 문제를 제거하며, 데이터가 기계 외부로 나가지 않으면서도 전문가급 음성 클로닝, 텍스트 음성 변환(TTS) 및 오디오 조작 도구를 제공합니다.

작동 방식

이 프로젝트는 React 프론트엔드와 FastAPI 백엔드를 사용하여 다양한 로컬 AI 모델을 조율합니다. 11개의 서로 다른 TTS 엔진(OmniVoice, CosyVoice 3, GPT-SoVITS 등)과 9개의 ASR(자동 음성 인식) 엔진(WhisperX, Faster-Whisper 포함) 사이를 전환할 수 있는 멀티 엔진 아키텍처를 특징으로 합니다. 시스템은 하드웨어 가속(CUDA, MPS, ROCm)을 자동으로 감지하고 VRAM 오프로딩을 관리하여 다양한 GPU 및 CPU 구성 간의 호환성을 보장합니다.

대상 사용자

고품질 음성 합성 및 전사 도구를 로컬에서 필요로 하는 콘텐츠 크리에이터, 오디오북 제작자 및 개발자를 위해 설계되었습니다. 특히 반복적인 비용을나 피하고, 완전한 데이터 프라이버시를 유지하며, 방대한 범위의 언어(최대 646개)를 다루고자 하는 사용자에게 유용합니다.

주요 특징

Zero-Shot 음성 클로닝: 3초 분량의 오디오 클립을 사용하여 어떤 목소리든 복제합니다.
시네마틱 비디오 더빙: 파일이나 YouTube URL로부터 비디오를 전사, 번역 및 재더빙하는 전체 파이프라인을 제공합니다.
오디오북 및 스토리 에디터: EPUB/PDF를 가져오고, 줄당 여러 목소리를 할당하고, .m4b 파일로 내보내는 도구입니다.
실시간 받아쓰기: 음성을 텍스트로 전사하여 모든 애플리케이션에 자동으로 붙여넣는 시스템 전체 위젯입니다.
Vocal Isolation: Demucs를 사용하여 배경 음악에서 음성을 분리합니다.
Speaker Diarization: Pyannote 및 WhisperX를 사용하여 오디오 트랙에서 서로 다른 화자를 자동으로 식별합니다.
MCP Server: Claude, Cursor 또는 기타 MCP 클라이언트를 통해 도구를 제어할 수 있도록 하는 통합 기능입니다.

OmniVoice-Studio: zero-shot 클로닝, 비디오 더빙 및 멀티 엔진 음성 합성을 위한 로컬 오픈 소스 보이스 스튜디오

OmniVoice-Studio: zero-shot 클로닝, 비디오 더빙 및 멀티 엔진 음성 합성을 위한 로컬 오픈 소스 보이스 스튜디오

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources