OmniVoice-Studio: zero-shot クローニング、ビデオ吹き替え、およびマルチエンジン音声合成のためのローカル・オープンソース・ボイススタジオ

何を解決するか

OmniVoice Studio は、ElevenLabs のようなクラウドベースの音声 AI サービスに代わる、完全ローカルでオープンソースの選択肢です。すべての処理をユーザー自身のハードウェア上で実行することで、月額サブスクリプション、API キー、およびプライバシーの懸念を排除し、データがマシンから離れることなく、プロフェッショナルグレードの音声クローニング、テキスト読み上げ (TTS)、およびオーディオ操作ツールを提供します。

仕組み

このプロジェクトは、React フロントエンドと FastAPI バックエンドを使用して、幅広いローカル AI モデルをオーケストレートします。11 種類の異なる TTS エンジン (OmniVoice、CosyVoice 3、および GPT-SoVITS など) と 9 種類の ASR (自動音声認識) エンジン (WhisperX および Faster-Whisper を含む) を切り替えることができるマルチエンジン・アーキテクチャを特徴としています。システムはハードウェア加速 (CUDA、MPS、ROCm) を自動的に検出し、異なる GPU および CPU 構成の間で互換性を確保するために VRAM オフローディングを管理します。

対象ユーザー

高品質な音声合成および文字起こしツールをローカルで必要とする、コンテンツクリエイター、オーディオブック制作者、および開発者向けに設計されています。特に、継続的なコストを避け、完全なデータプライバシーを維持し、広範な言語 (最大 646 言語) を扱いたいと考えている方に有用です。

ハイライト

Zero-Shot Voice Cloning: 3 秒の音声クリップを使用して、あらゆる音声を模倣します。
Cinematic Video Dubbing: ファイルまたは YouTube URL からビデオを文字起こし、翻訳し、再音声化するフルパイプライン。
Audiobook & Story Editor: EPUB/PDF をインポートし、1 行ごとに複数の音声を割り当て、.m4b ファイルとしてエクスポートするツール。
Real-time Dictation: 音声をテキストに文字起こしし、あらゆるアプリケーションに自動的に貼り付けるシステム全体のウィジェット。
Vocal Isolation: Demucs を使用して、音声から背景音楽を分離します。
Speaker Diarization: Pyannote および WhisperX を使用して、オーディオトラック内の異なる話者を自動的に識別します。
MCP Server: Claude、Cursor、またはその他の MCP クライアントを介してツールを制御できるようにする統合。

OmniVoice-Studio: zero-shot クローニング、ビデオ吹き替え、およびマルチエンジン音声合成のためのローカル・オープンソース・ボイススタジオ

OmniVoice-Studio: zero-shot クローニング、ビデオ吹き替え、およびマルチエンジン音声合成のためのローカル・オープンソース・ボイススタジオ

何を解決するか

仕組み

対象ユーザー

ハイライト

Sources