NVIDIA Nemotron 3 Ultra Release

NVIDIA Nemotron 3 Ultra Release

Nemotron 3 Ultra: A High-Performance Agentic Model

NVIDIA Nemotron 3 Ultra는 5500억 파라미터 Mixture-of-Experts (MoE) 모델로, 일반 챗봇 상호작용이 아닌 에이전시 사용 사례에 특화되어 설계되었습니다. 550억 활성 파라미터를 갖춘 이 모델은 코딩, 도구 사용, 장기‑ horizon, 다단계 행동에 뛰어나며, Anthropic Opus, GPT, Gemini Pro와 같은 최첨단 모델에 대한 경쟁력 있는 오픈‑weights 대안으로 자리매김합니다.

Model Architecture and Specifications

Nemotron 3 Ultra는 하이브리드 MoE 아키텍처를 활용하며 다중 토큰 예측을 지원합니다. 주요 기술 사양은 다음과 같습니다:

  • Total Parameters: 550 Billion
  • Active Parameters: 55 Billion
  • Context Window: 1 Million tokens
  • Hardware Requirements: 모델 크기 때문에 일반적으로 로컬 배포 시 다수의 H100 또는 B200 GPU와 같은 고성능 하드웨어가 필요하지만, 추론 제공업체와 NVIDIA 클라우드 API를 통해 널리 이용할 수 있습니다.

Training Methodology and Open Recipes

NVIDIA는 Nemotron 3 Ultra 출시와 함께 모델을 만들 때 사용된 학습 레시피와 데이터셋을 공개함으로써, 조직이 특정 기업 작업에 맞게 커스텀 버전을 파인튜닝할 수 있는 청사진을 제공했습니다.

Multi-Teacher On-Policy Distillation

이 모델은 다중 교사 온‑policy 증류 과정을 통해 개발되었습니다. 모든 작업을 하나의 모델에 학습시키는 대신, NVIDIA는 특정 도메인에 특화된 별도의 "교사" 모델을 학습했습니다:

  • Coding
  • Tool Use
  • Instruction Following

이러한 특화된 교사 모델들을 사용해 지식을 하나의 최종 모델로 증류했습니다. 이 접근법은 처음부터 결합된 데이터셋으로 학습한 모델보다 훨씬 강력한 모델을 만들게 합니다.

Post-Training for Agent Harnesses

에이전시 성능을 향상시키기 위해 NVIDIA는 에이전트 하네스(예: OpenClaw, Hermes, LangChain 딥 에이전트)에서 얻은 궤적을 활용한 사후 학습에 집중했습니다. 이러한 궤적을 학습함으로써 모델은 다음과 같은 핵심 에이전트 행동을 습득합니다:

  • Error Correction: 작업이 실패했을 때 되돌아가 오류를 수정하는 방법을 학습합니다.
  • Tool Integration: 도구 호출과 메모리를 효과적으로 활용해 복잡한 작업을 완수합니다.
  • RL Environments: 모델의 능력은 강화 학습(RL) 환경을 통해 강화되었으며, NVIDIA는 이를 공개하여 오픈소스 커뮤니티에 이익을 주고자 합니다.

Performance Benchmarks

Nemotron 3 Ultra는 특히 에이전시 중심 벤치마크에서 높은 효율성과 경쟁력 있는 성능을 보여줍니다.

Agentic and General Benchmarks

  • Pinchbench: OpenClaw과 같은 에이전트 하네스를 위한 벤치마크에서 Nemotron 3 Ultra는 오픈‑weights 모델 중 최고 성능을 기록했으며, Claude Opus와 같은 독점 모델에 근소하게 뒤처집니다.
  • Comparison to Large Models: 일부 트릴리언 파라미터 모델(예: GLM 5.1)보다 파라미터가 적음에도 불구하고 여러 작업에서 더 우수한 성능을 보입니다.
  • Inference Speed: Artificial Analysis 팀의 데이터에 따르면 Nemotron 3 Ultra는 초당 300 토큰 이상을 처리해 Kimi 및 GLM 모델보다 현저히 빠릅니다.

Practical Implementation and Features

Reasoning Modes

Nemotron 3 Ultra는 API를 통해 사용자가 "생각" 과정을 제어할 수 있는 추론 모델입니다. 사용자는 생각을 활성화하고 세 가지 노력 수준 중 하나를 선택할 수 있습니다:

  1. Low Effort: 저비용·저지연 요구에 맞춰 짧은 추론을 제공합니다.
  2. Default: 모델이 스스로 사유 사슬의 길이를 결정합니다.
  3. Reasoning Budget: 최대 생각 토큰 수(예: 16,000)를 설정할 수 있지만, 모델은 예산과 관계없이 보통 간결하게 유지됩니다.

Tool Calling and Agentic Workflow

모델은 OpenAI API 형식의 도구 정의를 따르며, 표준 엔드포인트와 호환됩니다. 실제 에이전시 실행에서 모델은:

  • 특정 질의에 맞는 올바른 도구를 식별합니다.
  • 해당 도구에 대한 정확한 인자를 생성합니다.
  • 도구 출력 결과를 처리해 다음 필요한 행동을 결정합니다.
  • 최종 답변을 제공하기 전 여러 차례 도구 사용을 반복합니다.

SUMMARY: NVIDIA는 에이전시 워크플로에 최적화된 550B 파라미터 Mixture-of-Experts 모델인 Nemotron 3 Ultra를 출시했으며, 다중 교사 증류와 공개 학습 레시피를 특징으로 합니다.

TITLE: NVIDIA Nemotron 3 Ultra Release

Sources