WhisperLiveKit: 실시간 화자 분리 및 번역 기능을 갖춘 초저지연 셀프 호스팅 음성-텍스트 변환 파이프라인

해결하는 문제

WhisperLiveKit (WLK)는 초저지연 셀프 호스팅 음성-텍스트(STT) 파이프라인을 제공합니다. 이는 표준 Whisper 모델이 실시간 오디오 청크를 처리할 때 문맥을 잃거나 단어를 잘라버리는 문제를 해결합니다. WLK는 고급 동시 음성 연구를 활용하여 지능형 버퍼링과 증분 처리를 가능하게 함으로써 고품질의 실시간 전사(transcription)를 구현합니다.

작동 방식

WLK는 여러 동시 사용자를 지원하는 백엔드를 구현하며, 오버헤드를 줄이기 위해 Voice Activity Detection (VAD)를 활용합니다. 또한 AlignAtt SimulStreaming 및 LocalAgreement와 같은 여러 최첨단 스트리밍 정책과 Faster-Whisper, MLX (Apple Silicon용), Voxtral, Qwen3-ASR를 포함한 백엔드를 통합하여 오디오 스트림을 처리합니다. 이러한 기능은 OpenAI 호환 REST API, Deepgram 호환 WebSocket, 그리고 실시간 스트리밍을 위한 네이티브 WebSocket을 통해 제공됩니다.

대상 사용자

이 도구는 실시간 전사 서비스, 청각 장애인을 위한 접근성 도구, 회의 전사 소프트웨어, 그리고 팟캐스트나 비디오에 자동 자막이 필요한 콘텐츠 제작자를 위해 설계되었습니다.

주요 특징

멀티 백엔드 지원: MLX (Apple Silicon), CUDA (NVIDIA), CPU를 포함한 다양한 백엔드와 호환되며, Voxtral 및 Qwen3-ASR에 대한 특화된 지원을 제공합니다.
실시간 화자 분리: Sortformer 또는 Diart를 사용하여 화자 식별을 지원합니다.
동시 번역: NLLW를 사용하여 200개 언어 간의 음성 번역이 가능합니다.
유연한 API: OpenAI 및 Deepgram API를 즉시 대체할 수 있어 기존 워크플로우에 통합하기 쉽습니다.
배포 준비 완료: 프로덕션 배포를 위한 Docker 지원 및 Nginx 설정 가이드를 포함합니다.

WhisperLiveKit: 실시간 화자 분리 및 번역 기능을 갖춘 초저지연 셀프 호스팅 음성-텍스트 변환 파이프라인

WhisperLiveKit: 실시간 화자 분리 및 번역 기능을 갖춘 초저지연 셀프 호스팅 음성-텍스트 변환 파이프라인

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources