FluidAudio: Appleデバイス上で推論をApple Neural Engineにオフロードする、ローカルオーディオAI用のSwift SDK

FluidAudio: Appleデバイス上で推論をApple Neural Engineにオフロードする、ローカルオーディオAI用のSwift SDK

解決する課題

FluidAudioは、開発者がmacOSおよびiOSアプリケーションに、高性能で完全にローカルなオーディオAI機能を統合できるようにするSwift SDKです。クラウドベースのオーディオ処理の必要性を排除し、Apple Neural Engine (ANE) に推論をオフロードすることで、ユーザーのプライバシーを確保し、レイテンシを低減します。

仕組み

このSDKは、さまざまなオーディオタスク向けに最適化されたCoreMLモデルのセットを提供します。ANEで直接推論を実行することで、CPUおよびGPUの使用率を最小限に抑え、バックグラウンド処理や常時稼働のワークロードに最適です。さまざまなオープンソースモデル (MIT/Apache 2.0) をサポートし、React Native、Expo、およびRust/Tauri用の公式ラッパーを提供しています。

対象ユーザー

外部サーバーに依存することなく、文字起こし、テキスト読み上げ、または話者識別を必要とするアプリを構築するAppleプラットフォームの開発者向けに設計されています。

ハイライト

  • Automatic Speech Recognition (ASR): 欧州言語、日本語、中国語(マンダリン)を含む複数の言語にわたるバッチおよびストリーミング文字起こしをサポートします。
  • Text-to-Speech (TTS): SSMLと発音制御を備えた並列合成、およびボイスクローニングを備えたストリーミングTTSを含みます。
  • Speaker Diarization: 話者の分離と識別を行うための、オンライン(リアルタイム)およびオフライン(バッチ)の両方のパイプラインを提供します。
  • Voice Activity Detection (VAD): 効率的な音声検出のためにSileroモデルを統合しています。
  • Apple Neural Engine Optimization: パフォーマンスを最大化し、消費電力を最小限に抑えるために、ANE向けに特別にチューニングされています。
  • Open-Source Models: HuggingFaceから公開されているモデルを使用し、デバイス上での使用に最適化されています。

Sources