argmax-oss-swift: 为 Apple 平台提供语音转文本、文本转语音和说话人日志功能的端侧音频推理框架

argmax-oss-swift: 为 Apple 平台提供语音转文本、文本转语音和说话人日志功能的端侧音频推理框架

它解决了什么问题

Argmax Open-Source SDK 提供了一套开箱即用的框架,用于在 Apple 平台(macOS 和 iOS)上完全在设备端运行 AI 音频模型。它消除了对转录、语音合成和说话人识别等常见音频任务使用云端 API 的需求,从而确保了更低的延迟和更好的隐私保护。

工作原理

该 SDK 是基于 Core ML 构建的三个专业“工具包 (Kits)”的集合,用于在 Apple silicon 上运行优化后的模型:

  • WhisperKit: 实现 OpenAI 的 Whisper,用于语音转文本转录和翻译。
  • TTSKit: 使用 Qwen-TTS 模型进行文本转语音生成,支持实时流式播放和自然语言风格指令。
  • SpeakerKit: 利用 Pyannote 进行说话人日志(识别谁在何时说话)。

它包含一个用于测试的 Swift CLI 和一个模拟 OpenAI Audio API 的本地服务器,允许开发者使用现有的 OpenAI 兼容客户端集成这些端侧能力。

适用人群

希望在不依赖外部服务器的情况下,集成高质量语音转文本、文本转语音或说话人日志功能的 iOS 和 macOS Apple 开发者。

亮点

  • 端侧推理: 通过 Core ML 完全在 Apple silicon 上运行。
  • OpenAI API 兼容性: 包含一个实现了 OpenAI Audio API 的本地服务器,以便于集成。
  • 实时流式传输: TTSKit 支持在生成音频时进行逐帧播放。
  • 多语言支持: 为转录和语音合成提供广泛的语言支持。
  • 灵活的模型选择: 提供各种模型大小(例如从 Tiny 到 Large)以平衡速度和准确性。

Sources