OmniVoice-Studio: 一个用于零样本克隆、视频配音和多引擎语音合成的本地开源语音工作室

它解决了什么问题

OmniVoice Studio 是 ElevenLabs 等云端语音 AI 服务的完全本地化、开源替代方案。它通过在用户自己的硬件上运行所有处理过程，消除了月度订阅、API 密钥和隐私担忧，在数据不离开机器的情况下提供专业级的语音克隆、文本转语音 (TTS) 和音频处理工具。

工作原理

该项目使用 React 前端和 FastAPI 后端来编排广泛的本地 AI 模型。它采用多引擎架构，允许用户在 11 种不同的 TTS 引擎（例如 OmniVoice, CosyVoice 3, 和 GPT-SoVITS）和 9 种 ASR（自动语音识别）引擎（包括 WhisperX 和 Faster-Whisper）之间进行切换。系统会自动检测硬件加速（CUDA, MPS, ROCm）并管理 VRAM 卸载，以确保在不同 GPU 和 CPU 配置下的兼容性。

适用人群

它专为需要本地高质量语音合成和转录工具的内容创作者、有声书制作人和开发者设计。对于那些希望避免重复成本、保持完全的数据隐私并处理多种语言（多达 646 种）的人来说特别有用。

亮点

零样本语音克隆：使用 3 秒钟的音频剪辑即可镜像任何声音。
电影级视频配音：一个完整的流水线，可从文件或 YouTube URL 对视频进行转录、翻译和重新配音。
有声书与故事编辑器：导入 EPUB/PDF 的工具，可为每行分配多个声音，并导出为 .m4b 文件。
实时听写：一个系统级小部件，可将语音转录为文本并自动粘贴到任何应用程序中。
人声分离：由 Demucs 提供支持，可将语音从背景音乐中分离出来。
说话人日志：使用 Pyannote 和 WhisperX 自动识别音频轨道中的不同说话人。
MCP Server：集成功能，允许通过 Claude, Cursor, 或其他 MCP 客户端来控制该工具。

OmniVoice-Studio: 一个用于零样本克隆、视频配音和多引擎语音合成的本地开源语音工作室

OmniVoice-Studio: 一个用于零样本克隆、视频配音和多引擎语音合成的本地开源语音工作室

它解决了什么问题

工作原理

适用人群

亮点

Sources