OmniVoice-Studio: 一款用於 zero-shot 克隆、影片配音與多引擎語音合成的本地開源語音工作室

它解決了什麼問題

OmniVoice Studio 是 ElevenLabs 等雲端語音 AI 服務的完全本地化、開源替代方案。它透過在使用者自己的硬體上執行所有處理程序，消除了月費訂閱、API 金鑰以及隱私疑慮，在數據不離開機器即可提供專業級的語音克隆、文字轉語音 (TTS) 與音訊處理工具。

運作原理

該專案使用 React 前端與 FastAPI 後端來協調廣泛的本地 AI 模型。它具備多引擎架構，允許使用者在 11 種不同的 TTS 引擎（例如 OmniVoice、CosyVoice 3 與 GPT-SoVITS）與 9 種 ASR（自動語音辨識）引擎（包括 WhisperX 與 Faster-Whisper）之間進行切換。系統會自動偵測硬體加速（CUDA、MPS、ROCm）並管理 VRAM 卸載，以確保在不同 GPU 與 CPU 配置下的相容性。

目標對象

它專為需要高品質語音合成與逐字稿工具的內容創作者、有聲書製作人以及開發者而設計。對於想要避免重複性成本、維持完全的數據隱私，並處理廣泛語言（多達 646 種）的人來說特別有用。

重點功能

Zero-Shot 語音克隆: 使用 3 秒鐘的音訊片段即可模仿任何聲音。
電影級影片配音: 一套完整的流程，可針對檔案或 YouTube URL 進行影片的逐字稿轉錄、翻譯與重新配音。
有聲書與故事編輯器: 匯入 EPUB/PDF 的工具，可為每行分配多個聲音，並匯出為 .m4b 檔案。
即時聽寫: 一個系統級的小工具，可將語音轉錄為文字並自動貼上到任何應用程式中。
人聲分離: 由 Demucs 提供支援，將語音從背景音樂中分離出來。
講者分割 (Speaker Diarization): 使用 Pyannote 與 WhisperX 自動辨識音軌中的不同講者。
MCP Server: 整合功能，允許透過 Claude、Cursor 或其他 MCP 客戶端來控制該工具。

OmniVoice-Studio: 一款用於 zero-shot 克隆、影片配音與多引擎語音合成的本地開源語音工作室

OmniVoice-Studio: 一款用於 zero-shot 克隆、影片配音與多引擎語音合成的本地開源語音工作室

它解決了什麼問題

運作原理

目標對象

重點功能

Sources