RealtimeSTT: 통합 음성 활동 감지 및 웨이크 워드 지원을 갖춘 파이썬 음성‑텍스트 변환 라이브러리

RealtimeSTT: 통합 음성 활동 감지 및 웨이크 워드 지원을 갖춘 파이썬 음성‑텍스트 변환 라이브러리

해결하는 문제

RealtimeSTT는 파이썬 애플리케이션에 음성‑텍스트 변환(STT) 기능을 손쉽게 통합할 수 있는 방법을 제공합니다. 음성 활동 감지(VAD) 처리, 오디오 스트림 관리, 웨이크 워드 구현이라는 복잡한 과정을 단순화하여 개발자가 최소한의 코드로 음성을 텍스트로 변환할 수 있게 합니다.

작동 방식

이 라이브러리는 AudioToTextRecorder 클래스를 중심으로 구성되어 있으며, 마이크에서 직접 오디오를 캡처하거나 외부 소스(파일, 웹소켓 등)에서 오디오 청크를 받을 수 있습니다. 기본적으로 faster_whisper 엔진을 사용하지만 kroko_onnx, whisper.cpp 등 다양한 엔진을 지원하는 모듈식 엔진 시스템을 통해 오디오를 전사합니다. 또한 WebRTC 또는 Silero 기반 VAD를 사용해 말이 시작되고 끝나는 시점을 감지하고, Porcupine 또는 OpenWakeWord를 통한 선택적 웨이크 워드 감지를 통해 녹음을 트리거합니다.

대상 사용자

AI 어시스턴트, 받아쓰기 소프트웨어, 브라우저 기반 스트리밍 서버, 빠른 프로토타입 제작 등 빠르고 로컬에서 동작하는 음성 인식이 필요한 개발자를 위해 설계되었습니다.

주요 특징

  • 유연한 오디오 입력: 직접 마이크 접근과 외부 PCM 오디오 청크 모두 지원
  • 다중 엔진 지원: faster-whisper, OpenAI Whisper, Kroko-ONNX 등 다양한 전사 엔진과 호환
  • 통합 VAD 및 웨이크 워드: 음성 활동 감지와 커스터마이징 가능한 웨이크 워드 활성화 기능 내장
  • 이벤트 기반 아키텍처: 녹음, VAD 상태, 전사 업데이트에 대한 콜백 제공
  • 웹 서버 예제: 다중 사용자 세션 격리를 지원하는 브라우저 기반 스트리밍을 위한 FastAPI 레퍼런스 서버 포함

요약

AI 어시스턴트와 받아쓰기 도구를 위한 빠른 전사, 음성 활동 감지 및 웨이크 워드 지원을 제공하는 파이썬 음성‑텍스트 변환 라이브러리.

제목

RealtimeSTT: 통합 음성 활동 감지 및 웨이크 워드 지원을 갖춘 파이썬 음성‑텍스트 변환 라이브러리

Sources