mlx-audio: 為 Apple Silicon 優化的音訊處理函式庫,支援 TTS、STT 與 STS

mlx-audio: 為 Apple Silicon 優化的音訊處理函式庫,支援 TTS、STT 與 STS

它解決了什麼問題

MLX-Audio 提供了一個專為 Apple Silicon (M 系列晶片) 優化的高效能音訊處理函式庫。它透過利用 MLX 框架進行快速且高效的推論,簡化了複雜音訊 AI 任務的部署——例如將文字轉換為語音、將語音轉換為文字,以及進行語音對語音的轉換。

運作原理

此函式庫作為各種預訓練音訊模型的統一介面。它支援多種用於文字轉換為語音 (TTS)、語音轉換為文字 (STT) 以及語音對語音 (STS) 任務的架構。為了優化 Mac 硬體上的效能與記憶體使用量,它包含了對量化 (範圍從 3-bit 到 8-bit) 的支援,並提供 Python API 與命令列介面,用於生成與轉錄。

對象是誰

它是為在 macOS 或 iOS 上開發音訊中心應用程式的開發者,以及需要在 Apple 硬體上快速執行尖端音訊模型的研究人員而設計的。

重點特色

  • 全面的模型支援:整合了眾多模型,包括 Kokoro、Whisper、Qwen3-TTS/ASR 與 OmniVoice。
  • 多功能的音訊任務:支援多語言 TTS、零樣本語音複製 (zero-shot voice cloning)、說話者分割 (speaker diarization) 以及雜訊抑制。
  • OpenAI 相容 API:包含一個 REST API 伺服器,以便更容易整合到現有的工作流程中。
  • Apple 生態系統整合:針對 M 系列晶片進行了優化,並包含一個用於原生 iOS/macOS 應用程式開發的 Swift package。
  • 進階控制:在 Web 介面中提供語音速度控制、3D 音訊視覺化以及串流音訊生成功能。

Sources