VibeThinker 3B: 小型言語モデルにおける推論のスケーリング

VibeThinker 3Bは、広範な知識の蓄積よりも探索と制約充足に焦点を当てることで、検証可能な推論タスクにおいて小型言語モデルが大規模な商用モデルと同等の性能を達成できることを示しています。Weibo AI Labによって開発されたこの3Bパラメータモデルは、専門的なポストトレーニングの手法を用いることで、小さなフットプリントで高度な推論を解禁できることを示していますが、大規模モデルのような一般的な知識やニュアンスには欠けています。

コアとなる命題：推論 vs 知識

VibeThinker 3Bは、知能は「検証可能な推論」と「広範な知識」という2つの異なるタイプに二分できるという前提に基づいています。

検証可能な推論: 数学やコーディングなどのタスクは、探索、制約充足、およびエラー訂正の問題として捉えられます。研究者たちは、これらのタスクには事実を保存するための膨大なパラメータ数ではなく、物事を解明するための堅牢な「エンジン」が必要であると主張しています。
広範な知識: ロングテールな事実や一般的な科学に関するタスクには、情報を保存するためにかなりの生のパラメータ容量が必要です。

前者にのみ焦点を当てることで、VibeThinker 3Bは、内部知識の不足を補うために外部ツール（検索など）と組み合わせることができる推論エンジンとなることを目指しています。

アーキテクチャとトレーニングパイプライン

VibeThinker 3Bはゼロからトレーニングされたものではなく、Qwen 2.5 Coder 3Bベースモデルのポストトレーニング版です。チームは、モデルの推論能力を洗練させるために「spectrum to signal」の原則を採用しました。

2段階の教師あり微調整 (SFT)

広範なカバー範囲: 第1段階では、数学、コード、STEM分野、および一般的なチャットに幅広く焦点を当てます。
困難な問題への焦点: 第2段階では、特に困難で長期的な問題に対してモデルを再学習させます。浅いパターンマッチングを防ぐため、チームは5,000トークン未満の推論トレースを破棄し、簡単な問題を排除しました。

強化学習 (RL)

モデルは、GRPOの変種である**MGPO (Max Ent Guided Policy Optimization)**を利用しています。このアプローチは、モデルの現在のレベルに対して、あまりに単純すぎるタスクや難しすぎるタスクを避けるように例を重み付けします。

最適化技術

多様性蒸留 (Diversity Distillation): 単一の解決策のパスに収束するのではなく、モデルは複数のチェックポイントからサンプリングし、それらをマージすることで、多様な回答戦略を維持します。
Long-to-Short Math RL: モデルはまず正確性に最適化されます。正確性が達成されると、より短い正しい回答に対して報酬を与え、不要な長さに対してはペナルティを課します。これは、商用推論モデルに見られる最適化を模倣したものです。
Claim Level Reliability (CLR): これはテスト時計算（test-time compute）技術であり、モデルが複数の回答を生成し、その中から最も信頼性の高いものを選択します。これにより、ベンチマークの性能が大幅に向上します。

ベンチマーク性能

VibeThinker 3Bは、特定の推論ベンチマークにおいて、Claude Opus 4.5、Gemini 3 Pro、DeepSeek V 3.2を含む、自身よりも大幅に大きなモデルと競争できる性能を示しています。

数学とコーディング: モデルはAIMEおよびAMIE 26ベンチマークにおいて、いくつかの商用大手モデルと同等か、それらを上回ります。
一般的な知識: モデルは一般的な知識ベンチマーク（GPA diamondなど）において低い性能を示し、大規模なオープンウェイトモデルや商用モデルの両方に遅れをとっています。これは、論理には優れているが広範な事実ベースのデータベースを欠いているというトレードオフを裏付けています。

実践的な観察と限界

VibeThinker 3Bは強力な研究ツールですが、特定の挙動を示し、それが一般的なプロダクション利用には不向きであることを示しています。

非効率的なトークン使用: モデルは、深い推論を必要としない単純な論理テストに対しても、極端に長い思考の連鎖（chain of thought）を用いることがよくあります。タスクの複雑さに応じて思考プロセスをスケーリングする柔軟性が欠けてています。
知識の欠如: モデルは、空間的または視覚的な表現を必要とするタスクに苦戦します。例えば、自転車に乗ったペリカンを描くためのSVGを生成するよう求められた際、数千の思考トークンを消費しますが、そのような画像がどのような見た目であるかという内部表現が欠けているため、不十分な視覚的結果しか生成できません。
言語ドリフト: 生成中に、モデルが英語と中国語の間で時折ドリフト（変動）することがあります。
大規模モデルとの比較: 長文コンテキストの検索タスクにおいて、VibeThinker 3Bは回答するために数千の思考トークンを必要としますが、一方で大規模モデル（GLM 5.2など）は、最小限の思考でほぼ即座に回答でき、より高いレベルの固有の自信と理解を示しています。

"This is certainly not a model that I'd use for production... It is a research project... the ideas that they've proposed could end up working out much better for a 9B model... or even going up to the 30B models."

結論

VibeThinker 3Bは、「推論エンジン」アプローチの概念実証として機能します。検証可能な報酬からの強化学習は、目標が汎用的な知能ではなく専門的な推論である場合、3Bモデルが構造化されたドメインにおいて、そのサイズの300倍のモデルと競合できることを証明しています。

VibeThinker 3B: 小型言語モデルにおける推論のスケーリング

VibeThinker 3B: 小型言語モデルにおける推論のスケーリング

コアとなる命題：推論 vs 知識

アーキテクチャとトレーニングパイプライン

2段階の教師あり微調整 (SFT)

強化学習 (RL)

最適化技術

ベンチマーク性能

実践的な観察と限界

結論

Sources