FluidAudio: 一款用于 Apple 设备本地音频 AI 的 Swift SDK,将推理过程卸载至 Apple Neural Engine

FluidAudio: 一款用于 Apple 设备本地音频 AI 的 Swift SDK,将推理过程卸载至 Apple Neural Engine

它解决了什么问题

FluidAudio 是一款 Swift SDK,使开发者能够将高性能、完全本地化的音频 AI 能力集成到 macOS 和 iOS 应用程序中。它消除了对云端音频处理的需求,通过将推理过程卸载至 Apple Neural Engine (ANE),确保了用户隐私并降低了延迟。

工作原理

该 SDK 提供了一套针对各种音频任务优化的 CoreML 模型。通过直接在 ANE 上运行推理,它最大限度地减少了 CPU 和 GPU 的使用,使其成为后台处理和常驻负载的理想选择。它支持多种开源模型 (MIT/Apache 2.0),并为 React Native、Expo 和 Rust/Tauri 提供官方封装。

适用人群

它专为 Apple 平台开发者设计,旨在构建无需依赖外部服务器即可实现转录、文本转语音或说话人识别的应用程序。

亮点

  • 自动语音识别 (ASR):支持包括欧洲语言、日语和中文普通话在在内的多种语言的批量转录和流式转录。
  • 文本转语音 (TTS):包括带有 SSML 和发音控制的并行合成,以及带有声音克隆功能的流式 TTS。
  • ** 说话人日志 (Speaker Diarization)**:为说话人分离和识别提供在线(实时)和离线(批量)流水线。
  • 语音活动检测 (VAD):集成了 Silero 模型以实现高效的语音检测。
  • Apple Neural Engine 优化:专门针对 ANE 进行了调优,以实现性能最大化并最大限度地降低功耗。
  • 开源模型:使用来自 HuggingFace 的公开可用模型,并针对设备端使用进行了优化。

Sources