mlx-audio: Apple Silicon을 지원하며 TTS, STT 및 STS를 지원하는 최적화된 오디오 처리 라이브러리

mlx-audio: Apple Silicon을 지원하며 TTS, STT 및 STS를 지원하는 최적화된 오디오 처리 라이브러리

해결하는 문제

MLX-Audio는 Apple Silicon(M-시리즈 칩)에 특화되어 최적화된 고성능 오디오 처리 라이브러리를 제공합니다. 텍스트를 음성으로 변환(TTS), 음성을 텍스트로 변환(STT), 음성 대 음성 변환(STS)과 같은 복잡한 오디오 AI 작업을 단순화하며, 빠르고 효율적인 추론을 위해 MLX 프레임워크를 활용합니다.

작동 방식

이 라이브러리는 다양한 사전 학습된 오디오 모델을 위한 통합 인터페이스 역할을 합니다. Text-to-Speech (TTS), Speech-to-Text (STT) 및 Speech-to-Speech (STS) 작업을 위한 여러 아키텍처를 지원합니다. Mac 하드웨어에서 성능과 메모리 사용량을 최적화하기 위해 3비트에서 8비트 사이의 양자화(quantization)를 지원하며, 생성 및 전사(transcription)를 위한 Python API와 명령줄 인터페이스(CLI)를 모두 제공합니다.

대상 사용자

macOS 또는 iOS에서 오디오 중심 애플리케이션을 구축하는 개발자와 Apple 하드웨어에서 최첨단 오디오 모델을 빠르게 실행해야 하는 연구자들을 위해 설계되었습니다.

주요 특징

  • 포괄적인 모델 지원: Kokoro, Whisper, Qwen3-TTS/ASR 및 OmniVoice를 포함한 수많은 모델을 통합합니다.
  • 다양한 오디오 작업: 다국어 TTS, zero-shot 음성 복제, 화자 분할(speaker diarization), 노이즈 억제 기능을 지원합니다.
  • OpenAI 호환 API: 기존 워크플로우에 더 쉽게 통합할 수 있도록 REST API 서버를 포함합니다.
  • Apple 생태계 통합: M-시리즈 칩에 최적화되어 있으며, 네이티브 iOS/macOS 앱 개발을 위한 Swift 패키지를 포함합니다.
  • 고급 제어 기능: 음성 속도 제어, 웹 인터페이스에서의 3D 오디오 시각화, 스트리밍 오디오 생성 기능을 제공합니다.

Sources