VibeThinker 3B:在小型語言模型中擴展推理能力

VibeThinker 3B:在小型語言模型中擴展推理能力

VibeThinker 3B 展示了小型語言模型透過聚焦於搜尋與約束滿足,而非廣泛的知識儲存,便能在可驗證的推理任務上與大型專有模型持平。此模型由微博 AI Lab 開發,擁有 3 億參數,證明了專門的後訓練配方能在小體積下釋放高階推理能力,儘管它缺乏大型模型的通用知識與細膩度。

核心論點:推理 vs. 知識

VibeThinker 3B 建立在智慧可分為兩種截然不同類型的前提上:可驗證的推理與廣泛的知識。

  • 可驗證的推理: 數學與程式設計等任務被視為搜尋、約束滿足與錯誤校正的問題。研究人員認為,這類任務不需要大量參數來儲存事實,而是需要一個強大的「引擎」來解決問題。
  • 廣泛的知識: 涉及長尾事實或一般科學的任務則需要相當的原始參數容量來存放資訊。

透過僅聚焦於前者,VibeThinker 3B 旨在成為一個推理引擎,並可搭配外部工具(如搜尋)來彌補其內部知識的不足。

架構與訓練流程

VibeThinker 3B 並非從頭訓練;它是 Qwen 2.5 Coder 3B 基礎模型的後訓練版本。團隊採用了「光譜轉訊號」原則來精煉模型的推理能力。

兩階段監督式微調(SFT)

  1. 廣泛覆蓋: 第一階段聚焦於大量的數學、程式、STEM 主題以及一般聊天。
  2. 困難問題聚焦: 第二階段專門在困難、長時程問題上重新訓練模型。為防止淺層模式匹配,團隊剔除了少於 5,000 token 的推理痕跡,並移除簡單問題。

強化學習(RL)

模型使用 MGPO(Max Ent Guided Policy Optimization),這是 GRPO 的變體。此方法對樣本加權,以避免過於簡單的任務與對模型當前水平而言過於困難的任務。

優化技術

  • 多樣性蒸餾: 模型不僅收斂到單一解答路徑,而是從多個檢查點抽樣並合併,以保持多樣的回答策略。
  • 長到短數學 RL: 模型首先優化準確度。達到準確度後,會因較短的正確答案而獲得獎勵,對不必要的冗長則受到懲罰,模仿專有推理模型的優化方式。
  • 聲明層可靠性(CLR): 這是一種測試時的計算技巧,模型會產生多個答案,然後選擇最可靠的一個,顯著提升基準表現。

基準表現

在特定推理基準上,VibeThinker 3B 與遠大於其規模的模型(包括 Claude Opus 4.5、Gemini 3 Pro 與 DeepSeek V 3.2)競爭力十足。

  • 數學與程式碼: 模型在 AIME 與 AMIE 26 基準上與多個專有巨頭持平或超越。
  • 一般知識: 模型在一般知識基準(如 GPA diamond)上表現不佳,落後於大型開源模型與專有模型。這證實了其取捨:在邏輯上表現優異,但缺乏廣泛的事實資料庫。

實務觀察與限制

雖然 VibeThinker 3B 是一個強大的研究工具,但它展現的特定行為使其不適合一般生產環境使用:

  • 低效的 Token 使用: 模型常在簡單的邏輯測試中使用極長的思考鏈,儘管這些測試並不需要深度推理。它缺乏根據任務複雜度調整思考過程的彈性。
  • 知識缺口: 模型在需要空間或視覺表徵的任務上掙扎。例如,當被要求產生自行車上鵜鶘的 SVG 時,它會消耗數千個思考 token,卻只能產出品質低劣的視覺結果,因為缺乏對此類圖像的內部表徵。
  • 語言漂移: 模型在生成過程中偶爾會在英文與中文之間切換。
  • 與大型模型的比較: 在長上下文檢索任務中,VibeThinker 3B 需要數千個思考 token 才能回答,而較大的模型(如 GLM 5.2)則能幾乎即時、以最少的思考量給出答案,顯示出更高的內在信心與理解力。

"這絕對不是我會用於生產的模型…它是一個研究專案…他們提出的想法或許在 9B 模型上會有更好的表現…甚至在 30B 模型上也可能奏效。"

結論

VibeThinker 3B 作為「推理引擎」概念的概念驗證。它證明了從可驗證的獎勵中進行強化學習,能讓 3B 模型在結構化領域內與規模大 300 倍的模型競爭,只要目標是專門的推理而非通用智慧。


摘要: VibeThinker 3B 是微博 AI Lab 的研究模型,透過可驗證獎勵的強化學習,在數學與程式碼等特定推理任務上,能與規模大 300 倍的模型匹敵或超越。

標題: VibeThinker 3B:在小型語言模型中擴展推理能力

Sources