NVIDIA Nemotron 3 Nano Omni リリース

NVIDIA の Nemotron 3 Nano Omni は、AI エージェント向けの高性能でコンパクトなエンジンとして設計されたマルチモーダルモデルです。テキスト、ビジョン、オーディオ機能を別々のツール群ではなく単一のモデルに統合することで、エージェントは文書の解析、動画の処理、音声の理解といった異なるモダリティを横断して推論でき、1 回の推論パスで実行できます。

アーキテクチャと構成

Nemotron 3 Nano Omni は、NVIDIA の複数の専門モデルを 1 つの統合バックボーンにまとめたものです。ベースは Nemotron 3 Nano バックボーンで、これは 25 兆トークンで事前学習された Mamba‑transformer ミクスチャー・オブ・エキスパーツ（MoE）モデルです。

マルチモーダル知能を実現するために、NVIDIA は以下のコンポーネントを統合しました:

Vision Encoder と Adapter: 静止画と動画の両方を扱える C‑radio ビジョンエンコーダとアダプタ。
Audio Encoder: 以前は NVIDIA の高性能自動音声認識（ASR）および音声‑テキストストリーミングモデルで使用されていた Parakeet オーディオエンコーダ。

この統合により、実世界の文書解析、複数画像の推論、長時間の音声／動画理解、エージェント的なコンピュータ利用が可能になります。

オープンウェイトの透明性とトレーニングレシピ

多くのオープンウェイトモデルとは異なり、Nemotron 3 Nano Omni には詳細な技術レポートとトレーニングレシピが付属しています。NVIDIA はトレーニングミックスに関して以下の情報を公開しています:

事前学習データ: 使用言語の内訳と総トークン数（25 兆）の完全なブレークダウン。
SFT レシピ: ビジョン、オーディオエンコーダのファインチューニング、そしてビジョンとオーディオを組み合わせた Omni SFT（共同 SFT）に関する詳細ドキュメント。
RL トレーニング: テキストと推論に対する強化学習（RL）トレーニングに関する情報。

このレベルの詳細は、組織が特定タスク向けにモデルをファインチューニングする際に役立ちます。たとえば、特殊文書の OCR 精度向上などです。

推論能力と設定

Nemotron 3 Nano Omni は「思考」モードをサポートしており、最終回答を出す前に内部推論トレースを生成できます。これは推論予算（トークン上限）で設定でき、速度と品質のバランスを調整します。

推論あり: 複数の可能性を評価しロジックをマッピングします。複雑な質問やマルチモーダル推論（例: 画像トークンを解析して結論に至る）に必須です。
推論なし: 応答が速くなりますが、非常に複雑なクエリでは品質が低下する可能性があります。

デプロイとローカル実行

このモデルは NVIDIA Cloud と OpenRouter で利用可能です。ローカルデプロイの場合、vLLM を使用して実行でき、他のローカルランナーがサポートしないオーディオ・動画ファイル形式にも強力に対応します。

ハードウェア制約に合わせて、NVIDIA は以下の複数フォーマットでモデルを提供しています:

BF16: フル 16 ビット版。
FP8 と FP4: メモリフットプリントを削減した量子化版。
GGUF: ローカル CPU/GPU 推論に最適化されたフォーマット。

ユースケースとトレードオフ

Nemotron 3 Nano Omni はエージェント向けの汎用マルチモーダル作業馬として位置付けられ、ウェブページのスクレイピング、スクリーンショットの取得と推論、ダウンロード動画の処理といったタスクに特に効果的です。

ただし、スピーカーはトレードオフを指摘しています。主目的が純粋に大量の文字起こし（ASR）である場合、単体の Parakeet モデルの方が依然として優れた選択です。Nemotron 3 Nano Omni は、音声を文字起こしした後に そのテキストを推論 して特定情報を抽出したい場合に最適です。

NVIDIA Nemotron 3 Nano Omni リリース

NVIDIA Nemotron 3 Nano Omni リリース

アーキテクチャと構成

オープンウェイトの透明性とトレーニングレシピ

推論能力と設定

デプロイとローカル実行

ユースケースとトレードオフ

Sources