NVIDIA Nemotron 3 Nano Omni 发布

NVIDIA Nemotron 3 Nano Omni 发布

NVIDIA 的 Nemotron 3 Nano Omni 是一种多模态模型,旨在作为 AI 代理的高性能、紧凑引擎。通过将文本、视觉和音频能力整合到单一模型,而不是一套独立工具,它使代理能够在单次推理过程中跨不同模态进行推理——例如分析文档、处理视频以及理解音频。

架构与组成

Nemotron 3 Nano Omni 将 NVIDIA 的多个专用模型合并为一个统一的主干。它基于 Nemotron 3 Nano 主干构建,后者是一个在 25 万亿 token 上预训练的 Mamba‑transformer mixture‑of‑experts(MoE)模型。

为了实现多模态智能,NVIDIA 集成了以下组件:

  • 视觉编码器和适配器:一种 C‑radio 视觉编码器和适配器,使模型能够处理静态图像和视频。
  • 音频编码器:Parakeet 音频编码器,之前用于 NVIDIA 的高性能自动语音识别(ASR)和语音转文本流式模型。

这种集成使模型能够执行真实场景的文档分析、多图像推理、长音频/视频理解以及代理式的计算机使用。

开放权重透明度与训练配方

与许多开放权重模型不同,Nemotron 3 Nano Omni 附带了详细的技术报告和训练配方。NVIDIA 对训练混合提供了透明信息,包括:

  • 预训练数据:使用的语言种类及总 token 数(25 万亿)的完整拆解。
  • SFT 配方:关于视觉、音频编码器微调以及联合 Omni SFT(同时包含视觉和音频)的监督微调(SFT)详细文档。
  • RL 训练:文本和推理的强化学习(RL)训练信息。

这些细节旨在帮助组织针对特定任务微调模型,例如提升专用文档的 OCR 准确率。

推理能力与配置

Nemotron 3 Nano Omni 支持一种“思考”模式,允许模型在给出最终答案前生成内部推理轨迹。可以通过推理预算(token 限制)进行配置,以在速度和质量之间取得平衡。

  • 带推理:模型评估多种可能性并绘制其逻辑,对复杂问题或多模态推理(例如分析图像 token 以得出结论)至关重要。
  • 不带推理:模型响应更快,但在高度复杂的查询上质量可能下降。

部署与本地运行

该模型可通过 NVIDIA Cloud 和 OpenRouter 获得。对于本地部署,可使用 vLLM 运行,它对音频和视频文件格式提供了强大的支持,而其他本地运行器可能缺乏此功能。

为适配不同硬件约束,NVIDIA 以多种格式发布了模型:

  • BF16:完整的 16 位版本。
  • FP8 和 FP4:用于降低内存占用的量化版本。
  • GGUF:针对本地 CPU/GPU 推理优化的格式。

使用场景与权衡

Nemotron 3 Nano Omni 被定位为代理的通用多模态工作马。它在网页抓取、对截图进行推理以及处理下载视频等任务上表现尤为出色。

然而,演讲者指出了一种权衡:如果主要目标是纯粹的大批量转录(ASR),则独立的 Parakeet 模型仍是更优选择。Nemotron 3 Nano Omni 最适合的场景是先转录音频,然后对该文本进行推理以提取特定信息。

Sources