mlx-audio: 為 Apple Silicon 優化的音訊處理函式庫，支援 TTS、STT 與 STS

它解決了什麼問題

MLX-Audio 提供了一個專為 Apple Silicon (M 系列晶片) 優化的高效能音訊處理函式庫。它透過利用 MLX 框架進行快速且高效的推論，簡化了複雜音訊 AI 任務的部署——例如將文字轉換為語音、將語音轉換為文字，以及進行語音對語音的轉換。

運作原理

此函式庫作為各種預訓練音訊模型的統一介面。它支援多種用於文字轉換為語音 (TTS)、語音轉換為文字 (STT) 以及語音對語音 (STS) 任務的架構。為了優化 Mac 硬體上的效能與記憶體使用量，它包含了對量化 (範圍從 3-bit 到 8-bit) 的支援，並提供 Python API 與命令列介面，用於生成與轉錄。

對象是誰

它是為在 macOS 或 iOS 上開發音訊中心應用程式的開發者，以及需要在 Apple 硬體上快速執行尖端音訊模型的研究人員而設計的。

重點特色

全面的模型支援：整合了眾多模型，包括 Kokoro、Whisper、Qwen3-TTS/ASR 與 OmniVoice。
多功能的音訊任務：支援多語言 TTS、零樣本語音複製 (zero-shot voice cloning)、說話者分割 (speaker diarization) 以及雜訊抑制。
OpenAI 相容 API：包含一個 REST API 伺服器，以便更容易整合到現有的工作流程中。
Apple 生態系統整合：針對 M 系列晶片進行了優化，並包含一個用於原生 iOS/macOS 應用程式開發的 Swift package。
進階控制：在 Web 介面中提供語音速度控制、3D 音訊視覺化以及串流音訊生成功能。

mlx-audio: 為 Apple Silicon 優化的音訊處理函式庫，支援 TTS、STT 與 STS

mlx-audio: 為 Apple Silicon 優化的音訊處理函式庫，支援 TTS、STT 與 STS

它解決了什麼問題

運作原理

對象是誰

重點特色

Sources