OmniVoice-Studio: zero-shot クローニング、ビデオ吹き替え、およびマルチエンジン音声合成のためのローカル・オープンソース・ボイススタジオ
OmniVoice-Studio: zero-shot クローニング、ビデオ吹き替え、およびマルチエンジン音声合成のためのローカル・オープンソース・ボイススタジオ
何を解決するか
OmniVoice Studio は、ElevenLabs のようなクラウドベースの音声 AI サービスに代わる、完全ローカルでオープンソースの選択肢です。すべての処理をユーザー自身のハードウェア上で実行することで、月額サブスクリプション、API キー、およびプライバシーの懸念を排除し、データがマシンから離れることなく、プロフェッショナルグレードの音声クローニング、テキスト読み上げ (TTS)、およびオーディオ操作ツールを提供します。
仕組み
このプロジェクトは、React フロントエンドと FastAPI バックエンドを使用して、幅広いローカル AI モデルをオーケストレートします。11 種類の異なる TTS エンジン (OmniVoice、CosyVoice 3、および GPT-SoVITS など) と 9 種類の ASR (自動音声認識) エンジン (WhisperX および Faster-Whisper を含む) を切り替えることができるマルチエンジン・アーキテクチャを特徴としています。システムはハードウェア加速 (CUDA、MPS、ROCm) を自動的に検出し、異なる GPU および CPU 構成の間で互換性を確保するために VRAM オフローディングを管理します。
対象ユーザー
高品質な音声合成および文字起こしツールをローカルで必要とする、コンテンツクリエイター、オーディオブック制作者、および開発者向けに設計されています。特に、継続的なコストを避け、完全なデータプライバシーを維持し、広範な言語 (最大 646 言語) を扱いたいと考えている方に有用です。
ハイライト
- Zero-Shot Voice Cloning: 3 秒の音声クリップを使用して、あらゆる音声を模倣します。
- Cinematic Video Dubbing: ファイルまたは YouTube URL からビデオを文字起こし、翻訳し、再音声化するフルパイプライン。
- Audiobook & Story Editor: EPUB/PDF をインポートし、1 行ごとに複数の音声を割り当て、.m4b ファイルとしてエクスポートするツール。
- Real-time Dictation: 音声をテキストに文字起こしし、あらゆるアプリケーションに自動的に貼り付けるシステム全体のウィジェット。
- Vocal Isolation: Demucs を使用して、音声から背景音楽を分離します。
- Speaker Diarization: Pyannote および WhisperX を使用して、オーディオトラック内の異なる話者を自動的に識別します。
- MCP Server: Claude、Cursor、またはその他の MCP クライアントを介してツールを制御できるようにする統合。
Sources
- undefineddebpalash/OmniVoice-Studio