WhisperLiveKit:一個具備即時角色分段與翻譯功能的超低延遲自託管語音轉文字管線

WhisperLiveKit:一個具備即時角色分段與翻譯功能的超低延遲自託管語音轉文字管線

它解決了什麼問題

WhisperLiveKit (WLK) 提供了一個超低延遲、自託管的語音轉文字 (STT) 管線。它解決了標準 Whisper 模型在處理即時音訊區塊時遇到的困難,即經常會丟失上下文或切斷單詞的問題。WLK 利用先進的同步語音研究,實現了智能緩衝與增量處理,以提供高品質的即時逐字稿。

運作原理

WLK 實現了一個支援多個並行用戶的後端,並利用語音活動檢測 (VAD) 來減少開銷。它整合了多種尖端的串流策略(例如 AlignAtt SimulStreaming 和 LocalAgreement)以及後端(包括 Faster-Whisper、適用於 Apple Silicon 的 MLX、Voxtral 和 Qwen3-ASR)來處理音訊串流。它透過 OpenAI 相容的 REST API、Deepgram 相容的 WebSocket 以及用於即時串流的原生 WebSocket 來提供這些功能。

對象是誰

此工具專為開發即時逐字稿服務、聽障人士輔助工具、會議逐字稿軟體,以及需要為播客或影片提供自動字幕的內容創作者而設計。

重點功能

  • 多後端支援:相容於各種後端,包括 MLX (Apple Silicon)、CUDA (NVIDIA) 和 CPU,並針對 Voxtral 和 Qwen3-ASR 提供專門支援。
  • 即時角色分段:支援使用 Sortformer 或 Diart 進行講者識別。
  • 同步翻譯:能夠使用 NLLW 將語音翻譯成與來自 200 種語言的內容。
  • 彈性的 API:提供 OpenAI 和 Deepgram API 的即插即用替代方案,使其易於整合到現有的工作流程中。
  • 部署就緒:包含 Docker 支援與用於生產環境部署的 Nginx 配置指南。

Sources