moonshine: 適用於即時代理與串流語音轉文字的低延遲裝置端語音工具包

moonshine: 適用於即時代理與串流語音轉文字的低延遲裝置端語音工具包

它解決了什麼問題

Moonshine Voice 提供了一個高效能的裝置端 AI 工具包,用於構建即時語音代理與應用程式。它透過提供靈活的輸入視窗與串流快取,解決了如 OpenAI 的 Whisper 等模型中常見的高延遲與冗餘計算問題,使其適用於從高階 Mac 到微控制器等各種裝置上的即時語音介面。

運作原理

Moonshine 使用由 OnnxRuntime 驅動的便攜式 C++ 核心函式庫,以實現跨平台效能。它採用了一套由 Transcribers 與 Intent Recognizers 組成的系統,透過 Streams 處理音訊輸入。該框架將複雜的語音處理階段——麥克風擷取、語音活動檢測 (VAD)、語音轉文字 (STT)、說話者識別與意圖識別——抽象化為單一函式庫。它使用基於事件的 API (透過 TranscriptEventListeners) 來即時通知應用程式語音更新。

適用對象

需要低延遲、隱私保護且在裝置端進行處理,而不依賴雲端 API 或昂貴硬體的語音驅動應用程式、對話代理與 IoT 裝置開發者。

重點特色

  • 裝置端處理:快速、私密,且不需要 API 金鑰或帳戶。
  • 串流優化:透過靈活的輸入視窗與狀態快取實現低延遲。
  • 廣泛的平台支援:可在 Python、iOS、Android、macOS、Linux、Windows、Raspberry Pi 與微控制器上執行。
  • 高準確度:Medium Streaming 模型在字錯率 (WER) 方面優於 Whisper Large V3,同時使用的參數數量顯著較少 (250M 對比 1.5B)。
  • 全面的工具包:在單一函式庫中包含 STT、文字轉語音 (TTS)、說話者識別 (diarization) 與指令識別。

Sources