VibeThinker-3B: 在小型語言模型中實現前沿級推理能力

VibeThinker-3B: 在小型語言模型中實現前沿級推理能力

VibeThinker-3B 證明了可驗證的推理能力可以被壓縮進小型規模的模型中,實現了與規模大出數個數量級的旗艦模型相匹配甚至超越其性能。透過利用 Spectrum-to-Signal 後訓練範式,這個 3B 參數的密集型模型在不犧牲指令可控性的情況下,在數學和程式碼領域達到了前沿級的基準測試表現。

可驗證推理的性能基準測試

VibeThinker-3B 在極具挑戰性的可驗證任務上取得了尖端(state-of-the-art)的結果,使其進入了與 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro 等第一梯隊推理系統相同的性能區間。

關鍵性能指標包括:

  • AIME26: 得分為 94.3,在使用 claim-level test-time scaling 時提升至 97.1。
  • LiveCodeBench v6: 達到了 80.2 的 Pass@1 成功率。
  • LeetCode Contests: 在近期未見過的競賽中展現了強大的分布外(out-of-distribution)泛化能力,接受率達 96.1%。
  • IFEval: 得分為 93.4,證實了對極端推理的專注並不會降低模型遵循嚴格指令的能力。

Spectrum-to-Signal 後訓練流程

該模型的能力源於一套系統化的優化流程,旨在推動小型模型體制下可驗證推理的極限。此流程由三個主要階段組成:

  1. Curriculum-based Supervised Fine-Tuning (SFT): 初始訓練專注於結構化的學習路徑。
  2. Multi-domain Reinforcement Learning (RL): 利用 Group Relative Policy Optimization (GRPO) 來精煉各個領域的推理路徑。
  3. Offline Self-Distillation: 進一步增強模型的內部邏輯與一致性。

參數壓縮-覆蓋假設 (Parametric Compression-Coverage Hypothesis)

VibeThinker-3B 的開發支持了 Parametric Compression-Coverage Hypothesis。該理論認為不同 LLM 能力所需的知識類型之間存在根本區別:

  • 可驗證推理: 這種能力被視為可以壓縮進「緊湊型推理核心」中,這意味著高層次的邏輯與問題解決能力可以透過相對較少的參數來實現。
  • 開放領域知識: 通用能力、事實回憶以及處理長尾場景的需求則需要「廣泛的參數覆蓋」,這需要更大的模型來儲存龐大的事實與概念陣列。

此假設建議,小型模型不僅僅是部署時的高效替代方案,而且是在數學和邏輯推理等特定、參數密集型能力領域中,實現前沿性能的一條可行且互補的路徑。

Sources