NVIDIA Nemotron 3 Nano Omni 发布

NVIDIA 的 Nemotron 3 Nano Omni 是一种多模态模型，旨在作为 AI 代理的高性能、紧凑引擎。通过将文本、视觉和音频能力整合到单一模型，而不是一套独立工具，它使代理能够在单次推理过程中跨不同模态进行推理——例如分析文档、处理视频以及理解音频。

架构与组成

Nemotron 3 Nano Omni 将 NVIDIA 的多个专用模型合并为一个统一的主干。它基于 Nemotron 3 Nano 主干构建，后者是一个在 25 万亿 token 上预训练的 Mamba‑transformer mixture‑of‑experts（MoE）模型。

为了实现多模态智能，NVIDIA 集成了以下组件：

这种集成使模型能够执行真实场景的文档分析、多图像推理、长音频/视频理解以及代理式的计算机使用。

与许多开放权重模型不同，Nemotron 3 Nano Omni 附带了详细的技术报告和训练配方。NVIDIA 对训练混合提供了透明信息，包括：

这些细节旨在帮助组织针对特定任务微调模型，例如提升专用文档的 OCR 准确率。

Nemotron 3 Nano Omni 支持一种“思考”模式，允许模型在给出最终答案前生成内部推理轨迹。可以通过推理预算（token 限制）进行配置，以在速度和质量之间取得平衡。

该模型可通过 NVIDIA Cloud 和 OpenRouter 获得。对于本地部署，可使用 vLLM 运行，它对音频和视频文件格式提供了强大的支持，而其他本地运行器可能缺乏此功能。

为适配不同硬件约束，NVIDIA 以多种格式发布了模型：

Nemotron 3 Nano Omni 被定位为代理的通用多模态工作马。它在网页抓取、对截图进行推理以及处理下载视频等任务上表现尤为出色。

然而，演讲者指出了一种权衡：如果主要目标是纯粹的大批量转录（ASR），则独立的 Parakeet 模型仍是更优选择。Nemotron 3 Nano Omni 最适合的场景是先转录音频，然后对该文本进行推理以提取特定信息。