argmax-oss-swift: Appleプラットフォーム向けに音声文字起こし、テキスト読み上げ、および話者分離を提供するオンデバイス音声推論フレームワーク

argmax-oss-swift: Appleプラットフォーム向けに音声文字起こし、テキスト読み上げ、話者分離を提供するオンデバイス音声推論フレームワーク

解決する課題

Argmax Open-Source SDKは、Appleプラットフォーム(macOSおよびiOS)上でAI音声モデルを完全にオンデバイスで実行するための、ターンキー型のフレームワークセットを提供します。文字起こし、音声合成、話者識別などの一般的な音声タスクにおいて、クラウドベースのAPIを必要としないため、低遅延かつ優れたプライバシーを確保できます。

仕組み

このSDKは、Apple silicon上で最適化されたモデルを実行するためにCore ML上に構築された、3つの特化型「Kits」のコレクションです。

  • WhisperKit: OpenAIのWhisperを実装し、音声からテキストへの文字起こしと翻訳を行います。
  • TTSKit: Qwen-TTSモデルを使用してテキスト読み上げを生成し、リアルタイムのストリーミング再生と自然言語によるスタイル指示をサポートします。
  • SpeakerKit: Pyannoteを利用して話者分離(誰がいつ話したかを特定)を行います。

テスト用のSwift CLIと、OpenAI Audio APIを模倣するローカルサーバーが含まれており、開発者は既存のOpenAI互換クライアントを使用して、これらのオンデバイス機能を統合できます。

対象ユーザー

外部サーバーに依存することなく、高品質な音声文字起こし、テキスト読み上げ、または話者分離を統合したい、iOSおよびmacOS向けのアプリを開発しているApple開発者。

ハイライト

  • オンデバイス推論: Core MLを介してApple silicon上で完全に動作します。
  • OpenAI API互換性: 統合を容易にするため、OpenAI Audio APIを実装したローカルサーバーが含まれています。
  • リアルタイムストリーミング: TTSKitは、生成される音声のフレームごとの再生をサポートします。
  • 多言語サポート: 文字起こしと音声合成の両方で幅広い言語をサポートしています。
  • 柔軟なモデル選択: 速度と精度のバランスをとるために、さまざまなモデルサイズ(例:TinyからLargeまで)を提供します。

Sources