NVIDIA Nemotron 3 Ultra 發布

NVIDIA Nemotron 3 Ultra 發布

Nemotron 3 Ultra:高效能代理模型

NVIDIA Nemotron 3 Ultra 是一款 5500 億參數的混合專家模型(Mixture‑of‑Experts,MoE),專為代理(agentic)使用情境而非一般聊天機器人互動而設計。擁有 550 億活躍參數,該模型在程式編寫、工具使用以及長時程、多步驟行動方面表現卓越,成為 Anthropic Opus、GPT、Gemini Pro 等前沿模型的具競爭力的開放權重替代方案。

模型架構與規格

Nemotron 3 Ultra 採用混合 MoE 架構,支援多 token 預測。主要技術規格包括:

  • 總參數量: 5500 億
  • 活躍參數量: 550 億
  • 上下文窗口: 100 萬 token
  • 硬體需求: 由於模型規模龐大,通常需要高階硬體(如多顆 H100 或 B200 GPU)才能在本地部署,然而也可透過推論服務提供商或 NVIDIA 雲端 API 廣泛取得。

訓練方法與開放配方

NVIDIA 透過公開訓練配方與資料集,讓組織能依據特定企業任務微調自訂版本,為 Nemotron 3 Ultra 的發布增添差異化價值。

多教師 On‑Policy 蒸餾

模型採用多教師 on‑policy 蒸餾流程開發。NVIDIA 並未在所有任務上訓練單一模型,而是分別訓練專精於特定領域的「教師」模型:

  • 程式編寫
  • 工具使用
  • 指令遵循

這些專門教師隨後被用來將知識蒸餾至單一最終模型。此方法使最終模型的效能遠超過從一開始就使用混合資料集訓練的模型。

代理 Harness 後訓練

為提升代理效能,NVIDIA 針對代理 harness(如 OpenClaw、Hermes 或 LangChain 深度代理)的軌跡進行後訓練。透過在這些軌跡上訓練,模型學習關鍵的代理行為,包括:

  • 錯誤校正: 任務失敗時學會回溯並修正錯誤。
  • 工具整合: 有效利用工具呼叫與記憶完成複雜任務。
  • RL 環境: 透過強化學習(Reinforcement Learning,RL)環境提升模型能力,NVIDIA 亦將此技術公開,惠及開源社群。

效能基準

Nemotron 3 Ultra 展現高效率與競爭性的表現,尤其在以代理為中心的基準測試中表現突出。

代理與通用基準

  • Pinchbench: 在針對 OpenClaw 等代理 harness 的基準測試中,Nemotron 3 Ultra 為表現最佳的開放權重模型,僅略遜於 Claude Opus 等專有模型。
  • 與大型模型比較: 雖然參數量少於某些兆參數模型(如 GLM 5.1),但在多項任務上仍優於它們。
  • 推論速度: 根據 Artificial Analysis 團隊的數據,Nemotron 3 Ultra 的速度超過每秒 300 token,遠快於 Kimi 與 GLM 系列模型。

實作細節與功能

推理模式

Nemotron 3 Ultra 為推理模型,允許使用者透過 API 控制「思考」過程。使用者可啟用思考並在三種努力程度中選擇:

  1. 低努力: 提供簡短推理,適合低成本、低延遲需求。
  2. 預設: 模型自行決定思考鏈的長度。
  3. 推理預算: 使用者可設定最大思考 token 數(例如 16,000),但模型往往仍保持簡潔,無論預算多少。

工具呼叫與代理工作流程

模型遵循 OpenAI API 的工具定義格式,確保與標準端點相容。在實際的代理執行中,模型能夠:

  • 判斷特定查詢應使用的正確工具。
  • 為該工具產生精確的參數。
  • 處理工具回傳的結果,以決定下一步必要的行動。
  • 在提供最終答案前,迭代多輪工具使用。

Sources