WhisperLiveKit: 一个具有实时说话人日志和翻译功能的超低延迟自托管语音转文本流水线

WhisperLiveKit: 一个具有实时说话人日志和翻译功能的超低延迟自托管语音转文本流水线

它解决了什么问题

WhisperLiveKit (WLK) 提供了一个超低延迟、自托管的语音转文本 (STT) 流水线。它解决了标准 Whisper 模型在处理实时音频块时表现不佳的问题,即经常丢失上下文或切断单词。WLK 利用先进的同步语音研究来实现智能缓冲和增量处理,从而实现高质量的实时转录。

工作原理

WLK 实现了一个支持多用户并发的后端,并利用语音活动检测 (VAD) 来减少开销。它集成了几种最先进的流式传输策略(例如 AlignAtt SimulStreaming 和 LocalAgreement)和后端(包括 Faster-Whisper、MLX for Apple Silicon、Voxtral 和 Qwen3-ASR)来处理音频流。它通过 OpenAI 兼容的 REST API、Deepgram 兼容的 WebSocket 以及用于实时流式传输的原生 WebSocket 暴露这些功能。

适用人群

该工具专为构建实时转录服务、为听障人士开发无障碍工具、会议转录软件以及需要为播客或视频自动生成字幕的内容创作者而设计。

亮点

  • 多后端支持:兼容各种后端,包括 MLX (Apple Silicon)、CUDA (NVIDIA) 和 CPU,并对 Voxtral 和 Qwen3-ASR 提供专门支持。
  • 实时说话人日志:支持使用 Sortformer 或 Diart 进行说话人识别。
  • 同步翻译:能够使用 NLLW 将语音翻译成和翻译自 200 种语言。
  • 灵活的 API:提供 OpenAI 和 Deepgram API 的即插即用替代方案,使其能够轻松集成到现有工作流中。
  • 部署就绪:包含 Docker 支持和用于生产部署的 Nginx 配置指南。

Sources