WhisperLiveKit: リアルタイムのダイアリゼーションと翻訳を備えた超低遅延セルフホスト型音声文字起こしパイプライン
WhisperLiveKit: リアルタイムのダイアリゼーションと翻訳を備えた超低遅延セルフホスト型音声文字起こしパイプライン
解決する課題
WhisperLiveKit (WLK) は、超低遅延のセルフホスト型音声文字起こし (STT) パイプラインを提供します。標準的な Whisper モデルがリアルタイムのオーディオチャンクの扱いに苦労し、文脈を失ったり単語が途切れたりすることが多いという問題に対処します。WLK は、高度な同時音声研究を利用して、インテリジェントなバッファリングと増分処理を可能にし、高品質なリアルタイム文字起こしを実現します。
仕組み
WLK は、複数の同時ユーザーをサポートするバックエンドを実装しており、Voice Activity Detection (VAD) を利用してオーバーヘッドを削減します。複数の最先端のストリーミングポリシー (AlignAtt SimulStreaming や LocalAgreement など) と、オーディオストリームを処理するための複数のバックエンド (Faster-Whisper、MLX for Apple Silicon、Voxtral、Qwen3-ASR を含む) を統合しています。これらの機能は、OpenAI 互換の REST API、Deepgram 互換の WebSocket、およびリアルタイムストリーミング用のネイティブ WebSocket を介して公開されます。
対象ユーザー
このツールは、リアルタイム文字起こしサービス、聴覚障害者のためのアクセシビリティツール、会議の文字起こしソフトウェア、およびポッドキャストや動画の自動字幕を必要とするコンテンツクリエイター向けに設計されています。
ハイライト
- マルチバックエンドサポート: MLX (Apple Silicon)、CUDA (NVIDIA)、および CPU と互換性があり、Voxtral や Qwen3-ASR に特化したサポートを提供します。
- リアルタイムのダイアリゼーション: Sortformer または Diart を使用した話者識別をサポートします。
- 同時翻訳: NLLW を使用して、200 言語間の音声の翻訳が可能です。
- 柔軟な API: OpenAI および Deepgram API のドロップインリプレースメントを提供するため、既存のワークフローへの統合が容易です。
- デプロイメント準備完了: 本番環境へのデプロイメントのための Docker サポートと Nginx 設定ガイドが含まれています。
Sources
- undefinedQuentinFuxa/WhisperLiveKit