NVIDIA Nemotron 3 Ultra リリース
NVIDIA Nemotron 3 Ultra リリース
Nemotron 3 Ultra: 高性能なエージェント型モデル
NVIDIA Nemotron 3 Ultraは、一般的なチャットボットの対話ではなく、エージェント的なユースケースに特化して設計された5500億パラメータのMixture-of-Experts (MoE) モデルです。550億の有効パラメータを備え、コーディング、ツールの使用、および長期的なマルチステップのアクションに優れるよう設計されており、Anthropic Opus、GPT、Gemini Proといったフロンティアモデルに匹敵する、競争力のあるオープンウェイトの代替手段として位置付けられています。
モデルアーキテクチャと仕様
Nemotron 3 UltraはハイブリッドMoEアーキテクチャを利用し、マルチトークン予測をサポートしています。主な技術仕様は以下の通りです:
- Total Parameters: 550 Billion
- Active Parameters: 55 Billion
- Context Window: 1 Million tokens
- Hardware Requirements: そのサイズのため、ローカル展開には通常、複数のH100やB200 GPUなどのハイエンドハードウェアが必要ですが、推論プロバイダーやNVIDIAのクラウドAPIを通じて広く利用可能です。
トレーニング手法とオープンレシピ
NVIDIAは、モデルの作成に使用されたトレーニングレシピとデータセットを公開することで、Nemotron 3 Ultraのリリースを際立たせています。これにより、組織が特定のエンタープライズタスク向けにカスタムバージョンをファインチューニングするための設計図を提供しています。
マルチティーチャー・オンポリシー蒸留
このモデルは、マルチティーチャー・オンポリシー蒸留プロセスを使用して開発されました。単一のモデルをすべてのタスクでトレーニングするのではなく、NVIDIAは特定のドメインに特化した個別の「ティーチャー」モデルをトレーニングしました:
- Coding
- Tool Use
- Instruction Following
これらの特化型ティーチャーは、その後、単一の最終モデルに知識を蒸留するために使用されました。このアプローチにより、最初から結合されたデータセットでトレーニングされたモデルよりも大幅に強力なモデルが実現します。
エージェント・ハーネス用のポストトレーニング
エージェント的な性能を向上させるため、NVIDIAはエージェント・ハーネス(OpenClaw、Hermes、またはLangChain deep agentsなど)からの軌跡(trajectories)を使用したポストトレーニングに焦点を当てました。これらの軌跡を用いてトレーニングすることで、モデルは以下のような重要なエージェント行動を学習します:
- Error Correction: タスクが失敗したときに、バックトラックしてエラーを修正する方法を学習します。
- Tool Integration: 複雑なタスクを完了するために、ツール呼び出しとメモリを効果的に活用します。
- RL Environments: モデルの能力は、強化学習 (RL) 環境を通じて強化されました。これは、NVIDIAがオープンソースコミュニティに利益をもたらすために公開している技術です。
パフォーマンス・ベンチマーク
Nemotron 3 Ultraは、高い効率性と競争力のあるパフォーマンスを示しており、特にエージェント中心のベンチマークにおいて顕著です。
エージェント型および汎用ベンチマーク
- Pinchbench: OpenClawのようなエージェント・ハーネス向けのベンチマークにおいて、Nemotron 3 Ultraはトップクラスのパフォーマンスを示すオープンウェイトモデルであり、Claude Opusのようなプロプライエタリなモデルにわずかに遅れる程度です。
- 大規模モデルとの比較: 一部の兆単位のパラメータを持つモデル(GLM 5.1など)よりもパラメータ数が少ないにもかかわらず、Nemotron 3 Ultraはいくつかのタスクでそれらを上回ります。
- Inference Speed: Artificial Analysisチームのデータによると、Nemotron 3 Ultraは毎秒300トークン以上の速度を達成しており、KimiやGLMモデルよりも大幅に高速です。
実装と機能
推論モード
Nemotron 3 Ultraは、API経由でユーザーが「思考」プロセスを制御できる推論モデルです。ユーザーは思考を有効にし、3つのエフェクトレベルを選択できます:
- Low Effort: 低コスト、低レイテンシの要件に対して、短い推論を提供します。
- Default: モデルが思考の連鎖 (chain-of-thought) の長さを自律的に決定します。
- Reasoning Budget: ユーザーが思考トークンの最大数(例:16,000)を設定できますが、モデルは予算に関わらず簡う潔に回答することがよくあります。
ツール呼び出しとエージェント型ワークフロー
このモデルは、ツールの定義にOpenAI API形式に従っており、標準的なエンドポイントとの互換性を確保しています。実際の的なエージェント型実行において、モデルは以下が可能です:
- 特定のクエリに対して正しいツールを特定します。 。* そのツールに対して正確な引数を生成します。
- ツールの出力を処理して、次に必要なアクションを決定します。
- 最終的な回答を提供する前に、複数のツール使用のラウンドを繰り返します。