VibeThinker 3B:在小型语言模型中扩展推理能力

VibeThinker 3B:在小型语言模型中扩展推理能力

VibeThinker 3B 展示了小型语言模型通过专注于搜索和约束满足,而非广泛的知识存储,能够在可验证的推理任务上与大型专有模型持平。该模型由微博 AI 实验室开发,拥有 3 B 参数,表明通过专门的后训练配方可以在小体积模型中释放高级推理能力,尽管它缺乏大型模型的通用知识和细腻度。

核心论点:推理 vs. 知识

VibeThinker 3B 的构建前提是智能可以划分为两种截然不同的类型:可验证的推理和广泛的知识。

  • 可验证的推理: 数学、编码等任务被视为搜索、约束满足和错误纠正的问题。研究人员认为,这类任务不需要大量参数来存储事实,而是需要一个强大的“引擎”来自行推导。
  • 广泛的知识: 包含长尾事实或通用科学的任务需要大量原始参数容量来存储信息。

通过专注于前者,VibeThinker 3B 旨在成为一个推理引擎,可与外部工具(如搜索)配合,以弥补其内部知识的不足。

架构与训练流程

VibeThinker 3B 并非从零训练,而是 Qwen 2.5 Coder 3B 基础模型的后训练版本。团队采用了“光谱转信号”原则来提升模型的推理能力。

两阶段监督微调(SFT)

  1. 广覆盖: 第一阶段聚焦于大量数学、代码、STEM 主题以及通用聊天。
  2. 难题聚焦: 第二阶段专门在困难、长时程问题上重新训练模型。为防止浅层模式匹配,团队剔除了少于 5,000 token 的推理轨迹,并去除了容易的问题。

强化学习(RL)

模型使用 MGPO(最大熵引导策略优化),这是 GRPO 的一种变体。该方法对示例加权,以避免过于简单的任务和对模型当前水平而言过于困难的任务。

优化技术

  • 多样性蒸馏: 模型不收敛到单一解路,而是从多个检查点采样并合并,以保持多样的回答策略。
  • 长到短数学 RL: 模型首先优化准确性。达到准确性后,奖励更短的正确答案,惩罚不必要的冗长,模拟专有推理模型中的优化方式。
  • 声明级可靠性(CLR): 这是一种测试时计算技术,模型生成多个答案后挑选最可靠的一个,显著提升基准表现。

基准性能

在特定推理基准上,VibeThinker 3B 与显著更大的模型竞争,包括 Claude Opus 4.5、Gemini 3 Pro 和 DeepSeek V 3.2。

  • 数学与编码: 模型在 AIME 与 AMIE 26 基准上与多家专有巨头持平或超越。
  • 通用知识: 模型在通用知识基准(如 GPA diamond)上表现不佳,落后于大型开源模型和专有模型。这验证了权衡:它在逻辑上表现出色,却缺乏广泛的事实数据库。

实际观察与局限性

虽然 VibeThinker 3B 是一个强大的研究工具,但它表现出一些使其不适合通用生产使用的行为:

  • 低效的 Token 使用: 即使是简单的逻辑测试,模型也常使用极长的思考链,缺乏根据任务复杂度灵活缩放思考过程的能力。
  • 知识缺口: 模型在需要空间或视觉表示的任务上表现挣扎。例如,要求生成自行车上鹈鹕的 SVG 时,它会消耗数千个思考 token,却因缺乏对该图像内部表征的理解而产出糟糕的视觉结果。
  • 语言漂移: 生成过程中模型偶尔会在英文和中文之间切换。
  • 与大模型对比: 在长上下文检索任务中,VibeThinker 3B 需要数千个思考 token 才能回答,而更大的模型(如 GLM 5.2)几乎可以瞬间给出答案,且思考 token 极少,展示出更高的固有信心和理解水平。

"这显然不是我会用于生产的模型……它是一个研究项目……他们提出的思路或许在 9B 模型上会有更好效果……甚至在 30B 模型上也可能奏效。"

结论

VibeThinker 3B 作为“推理引擎”方法的概念验证。它证明了基于可验证奖励的强化学习可以让 3 B 模型在结构化领域与规模相差 300 倍的模型竞争,只要目标是专门的推理而非通用智能。


摘要:VibeThinker 3B 是微博 AI 实验室的研究模型,利用可验证奖励的强化学习,在数学、编码等特定推理任务上匹配或超越规模相差 300 倍的模型。

标题:VibeThinker 3B:在小型语言模型中扩展推理能力

Sources