moonshine: リアルタイムエージェントとストリーミングspeech-to-textのための低遅延オンデバイス音声ツールキット
moonshine: リアルタイムエージェントとストリーミングspeech-to-textのための低遅延オンデバイス音声ツールキット
何を解決するか
Moonshine Voiceは、リアルタイム音声エージェントやアプリケーションを構築するための、高性能なオンデバイスAIツールキットを提供します。OpenAIのWhisperのようなモデルに見られる高遅延や冗長な計算の問題に対処するため、ストリーミングのための柔軟な入力ウィンドウとキャッシュを提供し、ハイエンドのMacからマイクロコントローラまで、幅広いデバイスでのライブ音声インターフェースに適しています。
仕組み
Moonshineは、クロスプラットフォームのパフォーマンスを実現するためにOnnxRuntimeで駆動するポータブルなC++コアライブラリを使用しています。Streamsを通じて音声入力を処理するTranscribersとIntent Recognizersのシステムを採用しています。このフレームワークは、マイクキャプチャ、音声活動検知(VAD)、speech-to-text (STT)、話者識別、および意図認識といった複雑な音声処理ステージを単一のライブラリに抽象化しています。TranscriptEventListenersを介したイベントベースのAPIを使用して、音声の更新をリアルタイムでアプリケーションに通知します。
対象者
クラウドAPIや高価なハードウェアに依存することなく、低遅延、プライベート、かつオンデバイスでの処理を必要とする、音声駆動型アプリケーション、対話型エージェント、およびIoTデバイスを構築する開発者。
ハイライト
- オンデバイス処理: 高速、プライベート、かつAPIキーやアカウントを必要としません。
- ストリーミングの最適化: 柔軟な入力ウィンドウと状態のキャッシュを通じて低遅延を実現します。
- 幅広いプラットフォームのサポート: Python, iOS, Android, macOS, Linux, Windows, Raspberry Pi, およびマイクロコントローラ上で動作します。
- 高い精度: Medium Streamingモデルは、大幅に少ないパラメータ数(250M vs 1.5B)を使用しながら、単語誤り率(WER)においてWhisper Large V3を上回ります。
- 包括的なツールキット: STT, text-to-speech (TTS), 話者識別(diarization), およびコマンド認識を一つのライブラリに含んでいます。
Sources
- undefinedmoonshine-ai/moonshine