NVIDIA Nemotron 3 Nano Omni Release

NVIDIA의 Nemotron 3 Nano Omni는 AI 에이전트를 위한 고성능, 소형 엔진으로 설계된 멀티모달 모델입니다. 텍스트, 비전, 오디오 기능을 별도의 도구 모음이 아니라 하나의 모델에 통합함으로써, 에이전트가 문서 분석, 비디오 처리, 오디오 이해와 같은 다양한 모달리티를 단일 추론 패스에서 Reasoning 할 수 있게 합니다.

Architecture and Composition

Nemotron 3 Nano Omni는 NVIDIA의 여러 특화 모델을 하나의 통합 백본으로 결합합니다. 이는 25조 토큰으로 사전 학습된 Mamba‑transformer mixture‑of‑experts (MoE) 모델인 Nemotron 3 Nano 백본 위에 구축되었습니다.

멀티모달 지능을 구현하기 위해 NVIDIA는 다음 구성 요소를 통합했습니다:

Vision Encoder and Adapter: 정적 이미지와 비디오 모두를 처리할 수 있게 하는 C‑radio 비전 인코더 및 어댑터.
Audio Encoder: NVIDIA의 고성능 자동 음성 인식(ASR) 및 음성‑텍스트 스트리밍 모델에 사용된 Parakeet 오디오 인코더.

이 통합을 통해 모델은 실제 문서 분석, 다중 이미지 추론, 장시간 오디오/비디오 이해, 그리고 에이전트 기반 컴퓨터 사용을 수행할 수 있습니다.

Open-Weights Transparency and Training Recipes

많은 오픈‑weights 모델과 달리 Nemotron 3 Nano Omni는 상세한 기술 보고서와 학습 레시피와 함께 제공됩니다. NVIDIA는 학습 믹스에 대한 투명성을 다음과 같이 제공했습니다:

Pre‑training Data: 사용된 언어와 전체 토큰 수(25조)의 전체 분류.
SFT Recipes: 비전, 오디오 인코더 파인튜닝, 그리고 비전과 오디오를 결합한 Omni SFT에 대한 감독 파인튜닝(SFT) 상세 문서.
RL Training: 텍스트와 Reasoning을 위한 강화 학습(RL) 훈련 정보.

이러한 수준의 상세 정보는 조직이 특정 작업에 맞게 모델을 파인튜닝하는 데 도움을 주며, 예를 들어 특수 문서에 대한 OCR 정확도를 향상시키는 데 활용될 수 있습니다.

Reasoning Capabilities and Configuration

Nemotron 3 Nano Omni는 최종 답변을 제공하기 전에 내부 Reasoning 트레이스를 생성하는 "thinking" 모드를 지원합니다. 이는 Reasoning 예산(토큰 제한)을 통해 속도와 품질을 균형 있게 조정할 수 있습니다.

With Reasoning: 모델이 여러 가능성을 평가하고 논리를 전개합니다. 이는 복잡한 질문이나 멀티모달 Reasoning(예: 이미지 토큰을 분석해 결론에 도달)에서 필수적입니다.
Without Reasoning: 모델이 더 빠른 응답을 제공하지만, 매우 복잡한 질의에 대해서는 품질이 낮아질 수 있습니다.

Deployment and Local Execution

이 모델은 NVIDIA Cloud와 OpenRouter를 통해 제공됩니다. 로컬 배포의 경우 vLLM을 사용해 실행할 수 있으며, 이는 일부 다른 로컬 러너가 지원하지 않는 오디오 및 비디오 파일 포맷에 대한 강력한 지원을 제공합니다.

다양한 하드웨어 제약에 맞추기 위해 NVIDIA는 모델을 여러 포맷으로 출시했습니다:

BF16: 전체 16비트 버전.
FP8 and FP4: 메모리 사용량을 줄인 양자화 버전.
GGUF: 로컬 CPU/GPU 추론에 최적화된 포맷.

Use Cases and Trade-offs

Nemotron 3 Nano Omni는 에이전트를 위한 범용 멀티모달 워크호스로 자리매김하고 있습니다. 웹 페이지 스크래핑, 스크린샷 촬영 및 Reasoning, 다운로드된 비디오 처리와 같은 작업에 특히 효과적입니다.

하지만 발표자는 다음과 같은 트레이드오프를 언급합니다: 순수히 대량 전사(ASR)가 주요 목표라면 독립형 Parakeet 모델이 여전히 최상의 선택입니다. Nemotron 3 Nano Omni는 오디오를 전사한 뒤 그 텍스트를 Reason 하여 특정 정보를 추출하고자 할 때 가장 적합합니다.

SUMMARY: NVIDIA는 텍스트, 이미지, 비디오, 오디오를 하나의 효율적인 아키텍처에서 네이티브로 지원하는 소형 올인원 멀티모달 모델인 Nemotron 3 Nano Omni를 출시했습니다.

TITLE: NVIDIA Nemotron 3 Nano Omni Release

NVIDIA Nemotron 3 Nano Omni Release

NVIDIA Nemotron 3 Nano Omni Release

Architecture and Composition

Open-Weights Transparency and Training Recipes

Reasoning Capabilities and Configuration

Deployment and Local Execution

Use Cases and Trade-offs

Sources