argmax-oss-swift:為 Apple 平台提供語音轉文字、文字轉語音與說話者分離的裝置端音訊推論框架

argmax-oss-swift:為 Apple 平台提供語音轉文字、文字轉語音與說話者分離的裝置端音訊推論框架

它解決了什麼問題

Argmax Open-Source SDK 提供一套即插即用的框架,讓 AI 音訊模型能完整在 Apple 平台(macOS 與 iOS)上本機執行。它消除了對雲端 API 的需求,能處理轉錄、語音合成與說話者辨識等常見音訊任務,從而降低延遲並提升隱私保護。

工作原理

此 SDK 是由三個專門的「Kit」組成,皆基於 Core ML 在 Apple Silicon 上執行最佳化模型:

  • WhisperKit:實作 OpenAI 的 Whisper,用於語音轉文字的轉錄與翻譯。
  • TTSKit:使用 Qwen‑TTS 模型產生文字轉語音,支援即時串流播放與自然語言風格指令。
  • SpeakerKit:利用 Pyannote 進行說話者分離(辨識誰在什麼時候說話)。

SDK 內含 Swift CLI 供測試,並提供一個模擬 OpenAI Audio API 的本機伺服器,讓開發者能以現有相容 OpenAI 的客戶端輕鬆整合這些裝置端功能。

目標對象

開發 iOS 與 macOS 應用的 Apple 開發者,想要在不依賴外部伺服器的情況下,整合高品質的語音轉文字、文字轉語音或說話者分離功能。

重點特色

  • 裝置端推論:透過 Core ML 完全在 Apple Silicon 上執行。
  • OpenAI API 相容性:內建本機伺服器實作 OpenAI Audio API,便於整合。
  • 即時串流:TTSKit 支援邊產生邊以逐框方式播放音訊。
  • 多語言支援:支援廣泛語言的轉錄與語音合成。
  • 彈性模型選擇:提供多種模型尺寸(例如 Tiny 到 Large),以在速度與精度間取得平衡。

Sources