VibeThinker-3B: 在小语言模型中实现前沿水平的推理能力

VibeThinker-3B: 在小语言模型中实现前沿水平的推理能力

VibeThinker-3B 证明了可验证的推理能力可以被压缩进小规模模型中,其性能可以达到甚至超过比它大几个数量级的旗舰模型。通过利用 Spectrum-to-Signal 后训练范式,这个 3B 参数的稠密模型在不牺牲指令可控性的情况下,在数学和编程方面达到了前沿水平的基准测试。

可验证推理中的性能基准

VibeThinker-3B 在要求极高的可验证任务上取得了最先进的结果,使其处于与 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro 等第一梯队推理系统相同的性能水平。

关键性能指标包括:

  • AIME26: 得分为 94.3,在使用 claim-level test-time scaling 时提高到 97.1。
  • LiveCodeBench v6: 实现了 80.2 的 Pass@1 率。
  • LeetCode Contests: 在最近未见的竞赛中表现出强大的分布外泛化能力,验收率为 96.1%。
  • IFEval: 得分为 93.4,证实了对极端推理的关注并不会降低模型遵循严格指令的能力。

Spectrum-to-Signal 后训练流水线

该模型的能力源于一个系统的优化流水线,旨在推向小模型范式下可验证推理的边界。该流水线由三个主要阶段组成:

  1. Curriculum-based Supervised Fine-Tuning (SFT): 初始训练侧重于结构化学习路径。
  2. Multi-domain Reinforcement Learning (RL): 利用 Group Relative Policy Optimization (GRPO) 来优化跨不同领域的推理路径。
  3. Offline Self-Distillation: 进一步增强模型的内部逻辑和一致性。

参数压缩-覆盖假设 (Parametric Compression-Coverage Hypothesis)

VibeThinker-3B 的开发支持了 Parametric Compression-Coverage Hypothesis。该理论认为不同 LLM 能力所需知识的类型之间存在根本区别:

  • 可验证推理: 这种能力被视为可以被压缩进“紧凑的推理核心”中,这意味着可以通过相对较少的参数实现高层逻辑和问题解决能力。
  • 开放域知识: 通用能力、事实召回和处理长尾场景需要“广泛的参数覆盖”,需要更大的模型来存储海量的事实和概念。

这一假设表明,小模型不仅是部署时的效率替代方案,而且是在数学和逻辑推理等特定、参数密集型能力领域实现前沿性能的可行的补充路径。

Sources