argmax-oss-swift：為 Apple 平台提供語音轉文字、文字轉語音與說話者分離的裝置端音訊推論框架

argmax-oss-swift：為 Apple 平台提供語音轉文字、文字轉語音與說話者分離的裝置端音訊推論框架

它解決了什麼問題

Argmax Open-Source SDK 提供一套即插即用的框架，讓 AI 音訊模型能完整在 Apple 平台（macOS 與 iOS）上本機執行。它消除了對雲端 API 的需求，能處理轉錄、語音合成與說話者辨識等常見音訊任務，從而降低延遲並提升隱私保護。

工作原理

此 SDK 是由三個專門的「Kit」組成，皆基於 Core ML 在 Apple Silicon 上執行最佳化模型：

WhisperKit：實作 OpenAI 的 Whisper，用於語音轉文字的轉錄與翻譯。
TTSKit：使用 Qwen‑TTS 模型產生文字轉語音，支援即時串流播放與自然語言風格指令。
SpeakerKit：利用 Pyannote 進行說話者分離（辨識誰在什麼時候說話）。

SDK 內含 Swift CLI 供測試，並提供一個模擬 OpenAI Audio API 的本機伺服器，讓開發者能以現有相容 OpenAI 的客戶端輕鬆整合這些裝置端功能。

目標對象

開發 iOS 與 macOS 應用的 Apple 開發者，想要在不依賴外部伺服器的情況下，整合高品質的語音轉文字、文字轉語音或說話者分離功能。

重點特色

裝置端推論：透過 Core ML 完全在 Apple Silicon 上執行。
OpenAI API 相容性：內建本機伺服器實作 OpenAI Audio API，便於整合。
即時串流：TTSKit 支援邊產生邊以逐框方式播放音訊。
多語言支援：支援廣泛語言的轉錄與語音合成。
彈性模型選擇：提供多種模型尺寸（例如 Tiny 到 Large），以在速度與精度間取得平衡。

Sources

undefinedargmaxinc/argmax-oss-swift