VibeThinker-3B: 소형 언어 모델에서 프론티어 수준의 추론 달성

VibeThinker-3B는 검증 가능한 추론 능력이 소규모 모델로 압축될 수 있음을 보여주며, 수십 배 더 큰 플래그십 모델과 대등하거나 이를 능가하는 성능을 달성합니다. Spectrum-to-Signal 사후 학습 패러다임을 활용하여, 이 3B 파라미터 밀집 모델은 지시 제어 가능성을 희생하지 않으면서 수학 및 코딩 분야에서 프론티어 수준의 벤치마크를 달성합니다.

검증 가능한 추론에서의 성능 벤치마크

VibeThinker-3B는 매우 까다로운 검증 가능한 작업에서 최첨단 결과를 달성하여, DeepSeek V3.2, GLM-5, Gemini 3 Pro와 같은 1티어 추론 시스템과 동일한 성능 대역에 위치합니다.

주요 성능 지표는 다음과 같습니다:

AIME26: 94.3점을 기록했으며, claim-level test-time scaling을 활용할 경우 97.1점으로 향상됩니다.
LiveCodeBench v6: 80.2 Pass@1 비율을 달성했습니다.
LeetCode Contests: 최근의 보지 못한 대회에서 96.1%의 수락률을 기록하며 강력한 분포 외 일반화 능력을 입증했습니다.
IFEval: 93.4점을 기록하여, 극한의 추론에 집중하는 것이 모델의 엄격한 지시 준수 능력을 저하시키지 않음을 확인했습니다.

Spectrum-to-Signal 사후 학습 파이프라인

모델의 능력은 소형 모델 체제 내에서 검증 가능한 추론의 한계를 밀어붙이기 위해 설계된 체계적인 최적화 파이프라인에서 비롯됩니다. 이 파이프라인은 세 가지 주요 단계로 구성됩니다:

Curriculum-based Supervised Fine-Tuning (SFT): 구조화된 학습 경로에 집중한 초기 학습.
Multi-domain Reinforcement Learning (RL): 다양한 도메인에 걸쳐 추론 경로를 정제하기 위해 Group Relative Policy Optimization (GRPO)를 활용.
Offline Self-Distillation: 모델의 내부 논리 및 일관성을 더욱 강화.

Parametric Compression-Coverage 가설

VibeThinker-3B의 개발은 Parametric Compression-Coverage 가설을 뒷받침합니다. 이 이론은 서로 다른 LLM 능력에 필요한 지식의 유형 사이에 근본적인 차이를 상정합니다:

Verifiable Reasoning: 이 능력은 "compact reasoning cores"로 압축될 수 있다고 간주됩니다. 즉, 고차원 논리 및 문제 해결은 비교적 적은 파라미터로도 달성할 수 있습니다.
Open-Domain Knowledge: 범용적인 역량, 사실적 회상, 롱테일 시나리오 처리는 "broad parameter coverage"를 필요로 하며, 방대한 양의 사실과 개념을 저장하기 위해 더 큰 모델이 필요합니다.

이 가설은 소형 모델이 단순히 배포를 위한 효율적인 대안이 아니라, 수학 및 논리적 추론과 같은 특정 파라미터 밀집 능력 체제에서 프론티어 성능을 달성하기 위한 실행 가능한 보완적 경로임을 시사합니다.

VibeThinker-3B: 소형 언어 모델에서 프론티어 수준의 추론 달성

VibeThinker-3B: 소형 언어 모델에서 프론티어 수준의 추론 달성

검증 가능한 추론에서의 성능 벤치마크

Spectrum-to-Signal 사후 학습 파이프라인

Parametric Compression-Coverage 가설

Sources