IBM Granite Speech 4.1 リリース:高スループット ASR モデル

IBM Granite Speech 4.1 リリース:高スループット ASR モデル

IBM は Granite Speech 4.1 をリリースしました。これはエッジ展開向けに設計された 2 億パラメータの自動音声認識 (ASR) モデルを 3 つ組み合わせたスイートです。これらのモデルにより、開発者は生の精度、話者属性の必要性、または極端な処理スループットのいずれか、特定のパフォーマンスボトルネックに基づいてバリアントを選択できます。

Granite Speech 4.1 2B:高精度の主力モデル

Granite Speech 4.1 2B はベースモデルで、現在 Hugging Face の Open ASR リーダーボードで単語誤り率 (WER) が 5.33% とトップです。この平均 WER は、LibriSpeech などのベンチマークよりも実際の使用状況を示す指標として信頼性が高いとされています。

主なパフォーマンスと機能

  • 処理速度: モデルはリアルタイムファクター (RTFX) が約 231 を達成し、1 秒の計算でほぼ 4 分の音声を処理できます。これにより、1 時間の音声を約 16 秒で文字起こしできます。
  • 多言語サポート: 英語、フランス語、ドイツ語、スペイン語、ポルトガル語、日本語の 7 言語の文字起こしに対応しています。
  • 翻訳: 英語と他のサポート言語間の双方向音声翻訳を提供します。
  • キーワードバイアス: プロンプトに名前、頭字語、技術用語のリストを渡すことで、ドメイン固有のコンテンツを正しく認識するようモデルに重み付けできます。
  • アーキテクチャ: 標準的な自己回帰アーキテクチャを使用しています。

Granite Speech 4.1 2B Plus:話者分離とタイムスタンプ

Plus バリアントは、ポッドキャストや会議録音など、誰がいつ話したかを把握することが重要な構造化文字起こし向けに最適化されています。

専門機能

  • 話者属性付き ASR(ダイアリゼーション): モデルは話者ラベル(例:"Speaker 1"、"Speaker 2")を提供し、テキストを特定の人物に紐付けられます。
  • 単語レベルのタイムスタンプ: 各単語に終了時刻が付与されます。報告されたタイムスタンプ精度は、Whisper の専門バージョンを含む多くの既存モデルを上回ると主張されています。
  • インクリメンタルデコーディング: 以前に文字起こししたテキストをプレフィックスとして渡すことが可能です。これは、長時間音声をチャンクに分割して処理する際に、話者番号と連続性を維持するのに特に有用です。

トレードオフ

これらの機能を実現するために、Plus モデルはいくつかの妥協を行っています。

  • 言語サポート: 5 言語に削減(日本語は除外)。
  • 機能: 翻訳機能が削除されました。
  • 精度: 単語誤り率はベースの 2B モデルよりやや高くなります。

Granite Speech 4.1 2B NAR:極限スループット

Granite Speech 4.1 2B NAR は非自己回帰 (NAR) モデルで、最大スループットを実現し、膨大な音声量を最小時間で処理できます。

非自己回帰 LLM ベース編集 (NLE)

標準的な自己回帰モデルがトークンを逐次生成するのに対し、NAR モデルは「非自己回帰 LLM ベース編集 (NLE)」という手法を使用します。プロセスは 2 ステップで行われます。

  1. ドラフト作成: 低コストの凍結 CTC エンコーダが音声上で走り、ドラフト文字起こしを生成します。
  2. 編集: モデルは双方向注意を用いてドラフトをコピー、挿入、削除、置換し、従来の一括並列予測に比べて精度を向上させます。

パフォーマンスとトレードオフ

  • スループット: H100 GPU でバッチ処理を行うと、リアルタイムファクターが 1,820 と主張され、1 時間の音声を約 2 秒で文字起こしできます。
  • 制限事項: NAR モデルは翻訳、キーワードバイアス、話者属性、単語レベルのタイムスタンプをサポートしません。

デプロイと実装

すべての Granite Speech 4.1 モデルはさまざまな GPU で実行できるほど小型ですが、NAR モデルは最適なパフォーマンスのために Flash Attention が必要になることが多いです。実装は Hugging Face の Transformers ライブラリと AutoProcessor を使用して行います。

ファインチューニングとカスタマイズ

IBM はファインチューニング用ノートブックを提供しており、既存の文字起こしデータをトレーニングデータとして使用することで、特定の声、アクセント、または法廷記録のような高度に専門化されたドメインにモデルを適応させることができます。

Sources