moonshine: 실시간 에이전트 및 스트리밍 speech-to-text를 위한 저지연 온디바이스 음성 툴킷

moonshine: 실시간 에이전트 및 스트리밍 speech-to-text를 위한 저지연 온디바이스 음성 툴킷

해결하는 문제

Moonshine Voice는 실시간 음성 에이전트 및 애플리케이션 구축을 위한 고성능 온디바이스 AI 툴킷을 제공합니다. OpenAI의 Whisper와 같은 모델에서 발견되는 높은 지연 시간과 중복 계산 문제를 해결하기 위해 스트리밍을 위한 유연한 입력 창과 캐싱을 제공하여, 고사양 Mac부터 마이크로컨트롤러에 이르기까지 다양한 장치에서 라이브 음성 인터페이스를 구현하는 데 적합합니다.

작동 방식

Moonshine은 크로스 플랫폼 성능을 위해 OnnxRuntime 기반의 휴대 가능한 C++ 코어 라이브러리를 사용합니다. Streams를 통해 오디오 입력을 처리하는 Transcribers 및 Intent Recognizers 시스템을 채택합니다. 이 프레임워크는 마이크로폰 캡처, 음성 활동 감지(VAD), speech-to-text (STT), 화자 식별, 의도 인식과 같은 복잡한 음성 처리 단계를 하나의 라이브러리로 추상화합니다. TranscriptEventListeners를 통해 이벤트 기반 API를 사용하여 애플리케이션에 실시간으로 음성 업데이트를를 알립니다.

대상 사용자

클라우드 API나 고가의 하드웨어에 의존하지 않고 저지연, 프라이버시가 보장되는 온디바이스 처리가 필요한 음성 기반 애플리케이션, 대화형 에이전트 및 IoT 장치를 구축하는 개발자.

주요 특징

  • 온디바이스 처리: 빠르고 프라이버시가 보장되며 API 키나 계정이 필요하지 않습니다.
  • 스트리밍 최적화: 유연한 입력 창과 상태 캐싱을 통해 저지연을 달성합니다.
  • 광범위한 플랫폼 지원: Python, iOS, Android, macOS, Linux, Windows, Raspberry Pi 및 마이크로컨트롤러에서 실행됩니다.
  • 높은 정확도: Medium Streaming 모델은 훨씬 적은 파라미터(250M vs 1.5B)를 사용하면서도 단어 오류율(WER) 측면에서 Whisper Large V3보다 뛰어난 성능을 보여줍니다.
  • 종합 툴킷: STT, text-to-speech (TTS), 화자 식별(diarization), 명령 인식 기능을 하나의 라이브러리에 포함합니다.

Sources