NVIDIA Nemotron 3 Ultra 发布

Nemotron 3 Ultra：高性能代理模型

NVIDIA Nemotron 3 Ultra 是一款 5500 亿参数的 Mixture-of-Experts（MoE）模型，专为代理（agentic）使用场景而非通用聊天机器人交互而设计。拥有 550 亿活跃参数，该模型旨在在编码、工具使用以及长时程、多步骤操作方面表现出色，成为 Anthropic Opus、GPT、Gemini Pro 等前沿模型的竞争性开源权重替代方案。

模型架构与规格

Nemotron 3 Ultra 采用混合 MoE 架构并支持多 token 预测。关键技术规格包括：

总参数量： 5500 亿
活跃参数量： 550 亿
上下文窗口： 100 万 token
硬件需求： 由于模型规模庞大，通常需要高端硬件（如多块 H100 或 B200 GPU）才能在本地部署，然而它也可通过推理服务提供商和 NVIDIA 云 API 广泛获取。

训练方法与开放配方

NVIDIA 通过公开训练配方和数据集，使 Nemotron 3 Ultra 的发布与众不同，为组织提供了针对特定企业任务微调自定义版本的蓝图。

多教师在线蒸馏

模型采用多教师在线蒸馏流程开发。NVIDIA 并未在所有任务上训练单一模型，而是训练了若干专注于特定领域的“教师”模型：

编码
工具使用
指令遵循

随后将这些专门的教师模型的知识蒸馏到一个最终模型中。该方法使得最终模型的能力显著强于从一开始就使用合并数据集训练的模型。

代理套件的后训练

为提升代理性能，NVIDIA 重点在代理套件（如 OpenClaw、Hermes 或 LangChain 深度代理）的轨迹上进行后训练。通过在这些轨迹上训练，模型学习关键的代理行为，包括：

错误纠正： 在任务失败时学会回溯并修正错误。
工具集成： 有效利用工具调用和记忆完成复杂任务。
强化学习环境： 通过强化学习（RL）环境提升模型能力，NVIDIA 将此技术公开，以惠及开源社区。

性能基准

Nemotron 3 Ultra 展示出高效性和竞争性的表现，尤其在以代理为中心的基准测试中。

代理与通用基准

Pinchbench： 在面向代理套件（如 OpenClaw）的基准中，Nemotron 3 Ultra 是表现最佳的开源权重模型，仅略逊于 Claude Opus 等专有模型。
与大模型对比： 尽管参数量少于某些万亿级模型（如 GLM 5.1），Nemotron 3 Ultra 在多个任务上仍优于它们。
推理速度： 根据 Artificial Analysis 团队的数据，Nemotron 3 Ultra 的速度超过每秒 300 token，显著快于 Kimi 与 GLM 系列模型。

实际实现与特性

推理模式

Nemotron 3 Ultra 是一个推理模型，用户可通过 API 控制“思考”过程。用户可以开启思考并在三种努力程度中选择：

低努力： 为低成本、低延迟需求提供简短推理。
默认： 模型自行决定思考链的长度。
推理预算： 允许用户设定最大思考 token 数（例如 16,000），但模型往往仍保持简洁，无论预算多少。

工具调用与代理工作流

模型遵循 OpenAI API 的工具定义格式，确保与标准端点兼容。在实际的代理运行中，模型能够：

为特定查询识别正确的工具。
为该工具生成精确的参数。
处理工具输出以决定下一步必要的操作。
在给出最终答案前，多轮迭代使用工具。

NVIDIA Nemotron 3 Ultra 发布

NVIDIA Nemotron 3 Ultra 发布

Nemotron 3 Ultra：高性能代理模型

模型架构与规格

训练方法与开放配方

多教师在线蒸馏

代理套件的后训练

性能基准

代理与通用基准

实际实现与特性

推理模式

工具调用与代理工作流

Sources