mlx-audio: 为 Apple Silicon 优化的音频处理库,支持 TTS、STT 和 STS
mlx-audio: 为 Apple Silicon 优化的音频处理库,支持 TTS、STT 和 STS
它解决了什么问题
MLX-Audio 提供了一个专门为 Apple Silicon(M 系列芯片)优化的高性能音频处理库。它通过利用 MLX 框架进行快速且高效的推理,简化了复杂音频 AI 任务的部署——例如将文本转换为语音、将语音转换为文本以及执行语音到语音的转换。
工作原理
该库作为一个统一的接口,支持多种预训练音频模型。它支持多种用于文本转语音 (TTS)、语音转文本 (STT) 和语音转语音 (STS) 任务的架构。为了优化 Mac 硬件上的性能和内存使用,它包含对量化(范围从 3-bit 到 8-bit)的支持,并为生成和转录提供了 Python API 和命令行界面。
适用人群
它专为在 macOS 或 iOS 上构建以音频为核心的应用的开发者,以及需要在 Apple 硬件上快速运行最先进音频模型的研究人员而设计。
亮点
- 全面的模型支持:集成了包括 Kokoro、Whisper、Qwen3-TTS/ASR 和 OmniVoice 在内的众多模型。
- 多功能音频任务:支持多语言 TTS、零样本语音克隆、说话人日志(speaker diarization)和降噪。
- OpenAI 兼容的 API:包含一个 REST API 服务器,以便更容易地集成到现有工作流中。
- Apple 生态系统集成:针对 M 系列芯片进行了优化,并包含一个用于原生 iOS/macOS 应用开发的 Swift package。
- 高级控制:在 Web 界面中提供语音速度控制、3D 音频可视化和流式音频生成。
Sources
- undefinedBlaizzy/mlx-audio