mlx-audio: 为 Apple Silicon 优化的音频处理库,支持 TTS、STT 和 STS

mlx-audio: 为 Apple Silicon 优化的音频处理库,支持 TTS、STT 和 STS

它解决了什么问题

MLX-Audio 提供了一个专门为 Apple Silicon(M 系列芯片)优化的高性能音频处理库。它通过利用 MLX 框架进行快速且高效的推理,简化了复杂音频 AI 任务的部署——例如将文本转换为语音、将语音转换为文本以及执行语音到语音的转换。

工作原理

该库作为一个统一的接口,支持多种预训练音频模型。它支持多种用于文本转语音 (TTS)、语音转文本 (STT) 和语音转语音 (STS) 任务的架构。为了优化 Mac 硬件上的性能和内存使用,它包含对量化(范围从 3-bit 到 8-bit)的支持,并为生成和转录提供了 Python API 和命令行界面。

适用人群

它专为在 macOS 或 iOS 上构建以音频为核心的应用的开发者,以及需要在 Apple 硬件上快速运行最先进音频模型的研究人员而设计。

亮点

  • 全面的模型支持:集成了包括 Kokoro、Whisper、Qwen3-TTS/ASR 和 OmniVoice 在内的众多模型。
  • 多功能音频任务:支持多语言 TTS、零样本语音克隆、说话人日志(speaker diarization)和降噪。
  • OpenAI 兼容的 API:包含一个 REST API 服务器,以便更容易地集成到现有工作流中。
  • Apple 生态系统集成:针对 M 系列芯片进行了优化,并包含一个用于原生 iOS/macOS 应用开发的 Swift package。
  • 高级控制:在 Web 界面中提供语音速度控制、3D 音频可视化和流式音频生成。

Sources