moonshine: 适用于实时智能体和流式语音转文本的低延迟端侧语音工具包

moonshine: 适用于实时智能体和流式语音转文本的低延迟端侧语音工具包

它解决了什么问题

Moonshine Voice 提供了一个高性能的端侧 AI 工具包,用于构建实时语音智能体和应用程序。它通过提供灵活的输入窗口和流式传输缓存,解决了像 OpenAI 的 Whisper 等模型中存在的的高延迟和冗余计算问题,使其适用于从高端 Mac 到微控制器的各种设备的实时语音接口。

工作原理

Moonshine 使用由 OnnxRuntime 提供支持的可移植 C++ 核心库,以实现跨平台性能。它采用了一套由 Transcribers 和 Intent Recognizers 组成的系统,通过 Streams 处理音频输入。该框架将复杂的语音处理阶段——麦克风采集、语音活动检测、语音转文本 (STT)、说话人识别和意图识别——抽象为一个单一的库。它使用基于事件的 API(通过 TranscriptEventListeners)来实时通知应用程序语音更新。

适用人群

需要低延迟、私密、端侧处理,且不依赖云端 API 或昂贵硬件的语音驱动型应用程序、对话式智能体和 IoT 设备的开发者。

亮点

  • 端侧处理:快速、私密,且不需要 API 密钥或账户。
  • 流式优化:通过灵活的输入窗口和状态缓存实现低延迟。
  • 广泛的平台支持:运行在 Python, iOS, Android, macOS, Linux, Windows, Raspberry Pi 和微控制器上。
  • 高准确度:Medium Streaming 模型在词错误率 (WER) 方面优于 Whisper Large V3,同时使用的参数量显著更少 (250M vs 1.5B)。
  • 全面的工具包:在一个库中集成了 STT, TTS, 说话人识别 (diarization) 和命令识别。

Sources