FluidAudio: 一款用於 Apple 裝置上本地音訊 AI 的 Swift SDK,將推論卸載至 Apple Neural Engine

FluidAudio: 一款用於 Apple 裝置上本地音訊 AI 的 Swift SDK,將推論卸載至 Apple Neural Engine

它解決了什麼問題

FluidAudio 是一款 Swift SDK,讓開發者能夠將高效能、完全本地化的音訊 AI 功能整合到 macOS 和 iOS 應用程式中。它消除了對雲端音訊處理的需求,透過將推論卸載至 Apple Neural Engine (ANE),確保使用者隱私並降低延遲。

運作原理

此 SDK 提供了一套針對各種音訊任務優化的 CoreML 模型。透過直接在 ANE 上執行推論,它能將 CPU 和 GPU 的使用率降至最低,使其成為背景處理和常駐型工作負載的理想選擇。它支援多種開源模型 (MIT/Apache 2.0),並為 React Native、Expo 和 Rust/Tauri 提供官方封裝。

目標對象

它專為 Apple 平台開發者設計,旨在構建不需要依賴外部伺服器的逐字稿轉錄、文字轉語音或說話者識別應用程式。

重點功能

  • 自動語音辨識 (ASR):支援多種語言的批次與串流轉錄,包括歐洲語言、日語和中文普通話。
  • 文字轉語音 (TTS):包含支援 SSML 和發音控制的並行合成,以及具備語音複製功能的串流 TTS。
  • 說話者分割 (Speaker Diarization):針對說話者分離與識別,提供線上(即時)與離線(批次)處理流程。
  • 語音活動檢測 (VAD):整合了 Silero 模型以實現高效的語音檢測。
  • Apple Neural Engine 優化:專為 ANE 進行微調,以最大化效能並最小化功耗。
  • 開源模型:使用來自 HuggingFace 的公開模型,並針對裝置端使用進行了優化。

Sources