VibeThinker-3B: 小型言語モデルにおけるフロンティアレベルの推論の実現

VibeThinker-3B: 小型言語モデルにおけるフロンティアレベルの推論の実現

VibeThinker-3Bは、検証可能な推論能力が小規模なモデルに圧縮可能であることを示しており、桁違いに大きなフラッグシップモデルに匹敵、あるいはそれを上回る性能を達成しています。Spectrum-to-Signalポストトレーニング・パラダイムを利用することで、この3Bパラメータのデンスモデルは、指示の制御可能性を犠牲にすることなく、数学とコーディングにおけるフロンティアレベルのベンチマークに到達しています。

検証可能な推論におけるパフォーマンス・ベンチマーク

VibeThinker-3Bは、非常に要求の厳しい検証可能なタスクにおいて最先端の結果を達成しており、DeepSeek V3.2、GLM-5、Gemini 3 Proのような第一級の推論システムと同じパフォーマンス帯域に位置しています。

主なパフォーマンス指標は以下の通りです:

  • AIME26: 94.3を記録。claim-level test-time scalingを利用すると97.1に向上します。
  • LiveCodeBench v6: 80.2のPass@1率を達成。
  • LeetCode Contests: 最近の未学習のコンテストにおいて96.1%の合格率を示し、強力な分布外汎化性能をDemonstratedしました。
  • IFEval: 93.4を記録。極端な推論への注力が、厳格な指示に従うモデルの能力を低下させないことを確認しました。

Spectrum-to-Signal ポストトレーニング・パイプライン

このモデルの能力は、小規模モデルの領域内で検証可能な推論の限界を押し広げるために設計された、体系的な最適化パイプラインから導き出されています。このパイプラインは、主に3つのフェーズで構成されています:

  1. Curriculum-based Supervised Fine-Tuning (SFT): 構造化された学習パスに焦点を当てた初期トレーニング。
  2. Multi-domain Reinforcement Learning (RL): Group Relative Policy Optimization (GRPO)を利用して、さまざまなドメインにわたる推論パスを洗練。
  3. Offline Self-Distillation: モデルの内部ロジックと一貫性をさらに強化。

Parametric Compression-Coverage Hypothesis

VibeThinker-3Bの開発は、Parametric Compression-Coverage Hypothesisを支持しています。この理論は、異なるLLMの能力に必要な知識のタイプに根本的な違いがあることを提唱しています:

  • Verifiable Reasoning: この能力は「コンパクトな推論コア」に圧縮可能であると考えられており、これは、高度なロジックと問題解決が比較的少ないパラメータで達成可能であることを意味します。
  • Open-Domain Knowledge: 汎用的な能力、事実の想起、およびロングテールなシナリオの処理には「広範なパラメータ・カバレッジ」が必要であり、膨大な事実や概念を保存するために、より大きなモデルが必要となります。

この仮説は、小規模モデルが単にデプロイのための効率的な代替手段であるだけでなく、数学や論理的推論のような特定のパラメータ密度の高い能力領域において、フロンティアレベルの性能を達成するための実行可能な補完的経路であることを示唆しています。

Sources