OmniVoice-Studio: 一款用於 zero-shot 克隆、影片配音與多引擎語音合成的本地開源語音工作室
OmniVoice-Studio: 一款用於 zero-shot 克隆、影片配音與多引擎語音合成的本地開源語音工作室
它解決了什麼問題
OmniVoice Studio 是 ElevenLabs 等雲端語音 AI 服務的完全本地化、開源替代方案。它透過在使用者自己的硬體上執行所有處理程序,消除了月費訂閱、API 金鑰以及隱私疑慮,在數據不離開機器即可提供專業級的語音克隆、文字轉語音 (TTS) 與音訊處理工具。
運作原理
該專案使用 React 前端與 FastAPI 後端來協調廣泛的本地 AI 模型。它具備多引擎架構,允許使用者在 11 種不同的 TTS 引擎(例如 OmniVoice、CosyVoice 3 與 GPT-SoVITS)與 9 種 ASR(自動語音辨識)引擎(包括 WhisperX 與 Faster-Whisper)之間進行切換。系統會自動偵測硬體加速(CUDA、MPS、ROCm)並管理 VRAM 卸載,以確保在不同 GPU 與 CPU 配置下的相容性。
目標對象
它專為需要高品質語音合成與逐字稿工具的內容創作者、有聲書製作人以及開發者而設計。對於想要避免重複性成本、維持完全的數據隱私,並處理廣泛語言(多達 646 種)的人來說特別有用。
重點功能
- Zero-Shot 語音克隆: 使用 3 秒鐘的音訊片段即可模仿任何聲音。
- 電影級影片配音: 一套完整的流程,可針對檔案或 YouTube URL 進行影片的逐字稿轉錄、翻譯與重新配音。
- 有聲書與故事編輯器: 匯入 EPUB/PDF 的工具,可為每行分配多個聲音,並匯出為 .m4b 檔案。
- 即時聽寫: 一個系統級的小工具,可將語音轉錄為文字並自動貼上到任何應用程式中。
- 人聲分離: 由 Demucs 提供支援,將語音從背景音樂中分離出來。
- 講者分割 (Speaker Diarization): 使用 Pyannote 與 WhisperX 自動辨識音軌中的不同講者。
- MCP Server: 整合功能,允許透過 Claude、Cursor 或其他 MCP 客戶端來控制該工具。
Sources
- undefineddebpalash/OmniVoice-Studio