OmniVoice-Studio: 一个用于零样本克隆、视频配音和多引擎语音合成的本地开源语音工作室

OmniVoice-Studio: 一个用于零样本克隆、视频配音和多引擎语音合成的本地开源语音工作室

它解决了什么问题

OmniVoice Studio 是 ElevenLabs 等云端语音 AI 服务的完全本地化、开源替代方案。它通过在用户自己的硬件上运行所有处理过程,消除了月度订阅、API 密钥和隐私担忧,在数据不离开机器的情况下提供专业级的语音克隆、文本转语音 (TTS) 和音频处理工具。

工作原理

该项目使用 React 前端和 FastAPI 后端来编排广泛的本地 AI 模型。它采用多引擎架构,允许用户在 11 种不同的 TTS 引擎(例如 OmniVoice, CosyVoice 3, 和 GPT-SoVITS)和 9 种 ASR(自动语音识别)引擎(包括 WhisperX 和 Faster-Whisper)之间进行切换。系统会自动检测硬件加速(CUDA, MPS, ROCm)并管理 VRAM 卸载,以确保在不同 GPU 和 CPU 配置下的兼容性。

适用人群

它专为需要本地高质量语音合成和转录工具的内容创作者、有声书制作人和开发者设计。对于那些希望避免重复成本、保持完全的数据隐私并处理多种语言(多达 646 种)的人来说特别有用。

亮点

  • 零样本语音克隆:使用 3 秒钟的音频剪辑即可镜像任何声音。
  • 电影级视频配音:一个完整的流水线,可从文件或 YouTube URL 对视频进行转录、翻译和重新配音。
  • 有声书与故事编辑器:导入 EPUB/PDF 的工具,可为每行分配多个声音,并导出为 .m4b 文件。
  • 实时听写:一个系统级小部件,可将语音转录为文本并自动粘贴到任何应用程序中。
  • 人声分离:由 Demucs 提供支持,可将语音从背景音乐中分离出来。
  • 说话人日志:使用 Pyannote 和 WhisperX 自动识别音频轨道中的不同说话人。
  • MCP Server:集成功能,允许通过 Claude, Cursor, 或其他 MCP 客户端来控制该工具。

Sources