NVIDIA Nemotron 3 Nano Omni 發布
NVIDIA Nemotron 3 Nano Omni 發布
NVIDIA 的 Nemotron 3 Nano Omni 是一款多模態模型,旨在作為 AI 代理的高效、緊湊引擎。透過將文字、視覺與音訊功能整合於單一模型,而非一套分離工具,它使代理能在單次推理過程中跨不同模態進行推理——例如分析文件、處理影片以及理解音訊。
架構與組成
Nemotron 3 Nano Omni 將 NVIDIA 多個專屬模型合併為一個統一的骨幹。它基於 Nemotron 3 Nano 骨幹,該骨幹是一個 Mamba‑transformer 混合專家(MoE)模型,預訓練了 25 兆個 token。
為了實現多模態智慧,NVIDIA 整合了以下元件:
- 視覺編碼器與適配器:一個 C‑radio 視覺編碼器與適配器,使模型能處理靜態圖像與影片。
- 音訊編碼器:Parakeet 音訊編碼器,先前用於 NVIDIA 高效能自動語音辨識(ASR)與語音轉文字串流模型。
此整合讓模型能執行實務文件分析、多圖像推理、長音訊/影片理解,以及代理式電腦使用。
開放權重透明度與訓練配方
與許多開放權重模型不同,Nemotron 3 Nano Omni 附帶詳細的技術報告與訓練配方。NVIDIA 提供了關於訓練混合的透明資訊,包括:
- 預訓練資料:使用語言的完整分類與總 token 數(25 兆)。
- SFT 配方:關於視覺、音訊編碼器微調以及結合視覺與音訊的 Omni SFT 的詳細文件。
- RL 訓練:文字與推理的強化學習(RL)訓練資訊。
此層級的細節旨在協助組織針對特定任務微調模型,例如提升特定文件的 OCR 準確度。
推理能力與設定
Nemotron 3 Nano Omni 支援「思考」模式,允許模型在給出最終答案前產生內部推理痕跡。可透過推理預算(token 限制)進行設定,以平衡速度與品質。
- 啟用推理:模型會評估多種可能性並繪製其邏輯,對於複雜問題或多模態推理(例如分析圖像 token 以得出結論)至關重要。
- 關閉推理:模型回應較快,但在高度複雜的查詢上品質可能下降。
部署與本地執行
模型可透過 NVIDIA Cloud 與 OpenRouter 取得。若要本地部署,可使用 vLLM 執行,該工具對音訊與影片檔案格式提供了其他本地執行器可能缺乏的強大支援。
為了因應不同硬體限制,NVIDIA 以多種格式釋出模型:
- BF16:完整的 16 位元版本。
- FP8 與 FP4:為降低記憶體占用而量化的版本。
- GGUF:針對本地 CPU/GPU 推理優化的格式。
使用情境與取捨
Nemotron 3 Nano Omni 被定位為代理的通用多模態工作馬,特別適合於抓取網頁、對螢幕截圖進行推理、以及處理下載的影片等任務。
然而,講者指出一個取捨:若主要目標是純粹的大量轉錄(ASR),單獨的 Parakeet 模型仍是更佳選擇。Nemotron 3 Nano Omni 最適合的情境是先將音訊轉錄為文字,然後對該文字進行推理以抽取特定資訊。