NVIDIA Nemotron 3 Nano Omni 發布

NVIDIA 的 Nemotron 3 Nano Omni 是一款多模態模型，旨在作為 AI 代理的高效、緊湊引擎。透過將文字、視覺與音訊功能整合於單一模型，而非一套分離工具，它使代理能在單次推理過程中跨不同模態進行推理——例如分析文件、處理影片以及理解音訊。

架構與組成

Nemotron 3 Nano Omni 將 NVIDIA 多個專屬模型合併為一個統一的骨幹。它基於 Nemotron 3 Nano 骨幹，該骨幹是一個 Mamba‑transformer 混合專家（MoE）模型，預訓練了 25 兆個 token。

為了實現多模態智慧，NVIDIA 整合了以下元件：

此整合讓模型能執行實務文件分析、多圖像推理、長音訊/影片理解，以及代理式電腦使用。

與許多開放權重模型不同，Nemotron 3 Nano Omni 附帶詳細的技術報告與訓練配方。NVIDIA 提供了關於訓練混合的透明資訊，包括：

此層級的細節旨在協助組織針對特定任務微調模型，例如提升特定文件的 OCR 準確度。

Nemotron 3 Nano Omni 支援「思考」模式，允許模型在給出最終答案前產生內部推理痕跡。可透過推理預算（token 限制）進行設定，以平衡速度與品質。

模型可透過 NVIDIA Cloud 與 OpenRouter 取得。若要本地部署，可使用 vLLM 執行，該工具對音訊與影片檔案格式提供了其他本地執行器可能缺乏的強大支援。

為了因應不同硬體限制，NVIDIA 以多種格式釋出模型：

Nemotron 3 Nano Omni 被定位為代理的通用多模態工作馬，特別適合於抓取網頁、對螢幕截圖進行推理、以及處理下載的影片等任務。

然而，講者指出一個取捨：若主要目標是純粹的大量轉錄（ASR），單獨的 Parakeet 模型仍是更佳選擇。Nemotron 3 Nano Omni 最適合的情境是先將音訊轉錄為文字，然後對該文字進行推理以抽取特定資訊。