VibeThinker 3B：在小型语言模型中扩展推理能力

VibeThinker 3B 展示了小型语言模型通过专注于搜索和约束满足，而非广泛的知识存储，能够在可验证的推理任务上与大型专有模型持平。该模型由微博 AI 实验室开发，拥有 3 B 参数，表明通过专门的后训练配方可以在小体积模型中释放高级推理能力，尽管它缺乏大型模型的通用知识和细腻度。

核心论点：推理 vs. 知识

VibeThinker 3B 的构建前提是智能可以划分为两种截然不同的类型：可验证的推理和广泛的知识。

可验证的推理： 数学、编码等任务被视为搜索、约束满足和错误纠正的问题。研究人员认为，这类任务不需要大量参数来存储事实，而是需要一个强大的“引擎”来自行推导。
广泛的知识： 包含长尾事实或通用科学的任务需要大量原始参数容量来存储信息。

通过专注于前者，VibeThinker 3B 旨在成为一个推理引擎，可与外部工具（如搜索）配合，以弥补其内部知识的不足。

VibeThinker 3B 并非从零训练，而是 Qwen 2.5 Coder 3B 基础模型的后训练版本。团队采用了“光谱转信号”原则来提升模型的推理能力。

模型使用 MGPO（最大熵引导策略优化），这是 GRPO 的一种变体。该方法对示例加权，以避免过于简单的任务和对模型当前水平而言过于困难的任务。

在特定推理基准上，VibeThinker 3B 与显著更大的模型竞争，包括 Claude Opus 4.5、Gemini 3 Pro 和 DeepSeek V 3.2。

数学与编码： 模型在 AIME 与 AMIE 26 基准上与多家专有巨头持平或超越。
通用知识： 模型在通用知识基准（如 GPA diamond）上表现不佳，落后于大型开源模型和专有模型。这验证了权衡：它在逻辑上表现出色，却缺乏广泛的事实数据库。

虽然 VibeThinker 3B 是一个强大的研究工具，但它表现出一些使其不适合通用生产使用的行为：

低效的 Token 使用： 即使是简单的逻辑测试，模型也常使用极长的思考链，缺乏根据任务复杂度灵活缩放思考过程的能力。
知识缺口： 模型在需要空间或视觉表示的任务上表现挣扎。例如，要求生成自行车上鹈鹕的 SVG 时，它会消耗数千个思考 token，却因缺乏对该图像内部表征的理解而产出糟糕的视觉结果。
语言漂移： 生成过程中模型偶尔会在英文和中文之间切换。
与大模型对比： 在长上下文检索任务中，VibeThinker 3B 需要数千个思考 token 才能回答，而更大的模型（如 GLM 5.2）几乎可以瞬间给出答案，且思考 token 极少，展示出更高的固有信心和理解水平。

"这显然不是我会用于生产的模型……它是一个研究项目……他们提出的思路或许在 9B 模型上会有更好效果……甚至在 30B 模型上也可能奏效。"

VibeThinker 3B 作为“推理引擎”方法的概念验证。它证明了基于可验证奖励的强化学习可以让 3 B 模型在结构化领域与规模相差 300 倍的模型竞争，只要目标是专门的推理而非通用智能。

摘要：VibeThinker 3B 是微博 AI 实验室的研究模型，利用可验证奖励的强化学习，在数学、编码等特定推理任务上匹配或超越规模相差 300 倍的模型。

标题：VibeThinker 3B：在小型语言模型中扩展推理能力