argmax-oss-swift: 为 Apple 平台提供语音转文本、文本转语音和说话人日志功能的端侧音频推理框架

argmax-oss-swift: 为 Apple 平台提供语音转文本、文本转语音和说话人日志功能的端侧音频推理框架

它解决了什么问题

Argmax Open-Source SDK 提供了一套开箱即用的框架，用于在 Apple 平台（macOS 和 iOS）上完全在设备端运行 AI 音频模型。它消除了对转录、语音合成和说话人识别等常见音频任务使用云端 API 的需求，从而确保了更低的延迟和更好的隐私保护。

工作原理

该 SDK 是基于 Core ML 构建的三个专业“工具包 (Kits)”的集合，用于在 Apple silicon 上运行优化后的模型：

WhisperKit: 实现 OpenAI 的 Whisper，用于语音转文本转录和翻译。
TTSKit: 使用 Qwen-TTS 模型进行文本转语音生成，支持实时流式播放和自然语言风格指令。
SpeakerKit: 利用 Pyannote 进行说话人日志（识别谁在何时说话）。

它包含一个用于测试的 Swift CLI 和一个模拟 OpenAI Audio API 的本地服务器，允许开发者使用现有的 OpenAI 兼容客户端集成这些端侧能力。

适用人群

希望在不依赖外部服务器的情况下，集成高质量语音转文本、文本转语音或说话人日志功能的 iOS 和 macOS Apple 开发者。

亮点

端侧推理: 通过 Core ML 完全在 Apple silicon 上运行。
OpenAI API 兼容性: 包含一个实现了 OpenAI Audio API 的本地服务器，以便于集成。
实时流式传输: TTSKit 支持在生成音频时进行逐帧播放。
多语言支持: 为转录和语音合成提供广泛的语言支持。
灵活的模型选择: 提供各种模型大小（例如从 Tiny 到 Large）以平衡速度和准确性。

Sources

undefinedargmaxinc/argmax-oss-swift