NVIDIA Nemotron 3.5 ASR リリースノート

NVIDIA Nemotron 3.5 ASR リリースノート

概要

NVIDIA Nemotron 3.5 ASR は、600 万パラメータのストリーミング自動音声認識(ASR)モデルで、セルフホスト型ソリューションにより音声からテキストへのスタック全体を置き換えることを目的としています。NVIDIA NeMo スピーチチームが開発したこのモデルは、単一のチェックポイントから 40 言語の文字起こしをサポートし、低レイテンシが重要なライブストリーミング用途に特化して最適化されています。

低レイテンシのためのキャッシュ対応ストリーミング

Nemotron 3.5 ASR は「キャッシュ対応ストリーミング」を利用し、従来のバッファリングストリーミングで発生する計算の冗長性を排除します。

重複チャンクの問題

従来の非ストリーミングエンコーダは、ライブ音声を重複するチャンクで処理します。これにより、システムは音声ウィンドウを文字起こしし、ウィンドウを前方にスライドさせ、重複部分を何度も再文字起こししなければなりません。この繰り返し処理は計算コストを増大させ、文字起こしに大きな遅延をもたらします。

キャッシュ対応ソリューション

キャッシュ対応ストリーミングは、LLM デコーディングにおける KV キャッシュと同様に機能します。重複部分を再処理する代わりに、モデルはエンコーダの自己注意と活性化をキャッシュし、新しい音声が到着した際にこれらの状態を再利用します。モデルは生音声から再計算するのではなく、キャッシュされた表現に注意を向けるため、NVIDIA の報告では H100 GPU 上で最大 17 倍の性能向上が期待できるとされています。

実行時設定と対応言語

レイテンシと精度のトレードオフ

ユーザーは実行時に注意コンテキストサイズ(チャンクサイズ)を調整でき、モデルを再学習することなくレイテンシと精度のバランスを取れます。利用可能なチャンクサイズは以下の通りです:

  • 80 ミリ秒
  • 160 ミリ秒
  • 320 ミリ秒
  • 560 ミリ秒
  • 1 秒強

小さなチャンク(例:80ms)は単語単位の高速応答を提供し、大きなチャンク(例:1s)はフレーズ全体の文字起こしを行い、精度が高くなる可能性があります。

多言語対応能力

モデルの言語サポートは、プロダクションの準備状況に応じて階層化されています:

  • すぐに使用可能: 19 言語はオプションの自動検出とともに完全に機能します。
  • プロダクションレベル: さらに 13 言語がサポートされています。
  • 適応が必要: タイ語など 8 言語は事前学習済みですが、本格的なプロダクション利用にはファインチューニングが必要です。

ドメイン固有の精度向上のためのワードブースティング

ワードブースティングは、製品名、薬品名、姓、技術用語など、トレーニングデータにあまり出現しなかった稀な単語の文字起こし精度を向上させるデコード時テクニックです。

ワードブースティングの仕組み

ファインチューニングとは異なり、ワードブースティングは重みの変更や再学習を必要としません。ブースティングツリーを用いて候補を生成・スコア付けします。特定の単語やフレーズのリストとそれに対応する「強度」値をモデルに提供することで、音声が対象フレーズに近い場合にそのトークンのスコアに正のバイアスが加えられます。これにより、類似した一般的な単語よりも正しい専門用語が予測される確率が高まります。

スピーカーダイアリゼーションと属性付与

Nemotron 3.5 ASR はダイアリゼーションパイプラインに組み込むことで、話者レベルの属性付与を提供できます。これは NeMo フレームワークまたは外部モデルを通じて実現可能です。

主な機能は以下の通りです:

  • スピーカーセグメンテーション: 録音内の異なる話者を区切って返す(ポッドキャストに最適)。
  • 埋め込み取得: 録音開始時に名前を言うなど、既知の話者の埋め込みを取得し、トランスクリプト全体でその話者に同一の ID を割り当てる。

Sources