Stanford CS336 第16讲:可验证奖励强化学习(RLVR)

Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

RLVR: Enabling Thinking Models through Verifiable Rewards

Reinforcement Learning from Verifiable Rewards (RLVR) 是一种后训练范式,允许语言模型通过优化可客观验证的奖励(如数学正确性或代码执行)来发展复杂的推理能力——通常表现为长链式思考(Chain of Thought, CoT)。不同于依赖可能噪声的人类偏好模型的标准 RLHF(Reinforcement Learning from Human Feedback),RLVR 利用真实的结果来避免模型利用奖励模型缺陷而非提升实际性能的“过度优化”瓶颈。

The Shift from PPO to GRPO

Proximal Policy Optimization (PPO) 长期以来是语言模型强化学习的主力,但由于依赖价值模型,它实现困难且计算成本高。

The Limitations of PPO

  • Implementation Sensitivity: PPO 对超参数和实现细节高度敏感,常常需要大量“技巧”才能稳定训练。
  • Memory Overhead: PPO 需要一个价值模型(估计每个 token 的期望奖励的神经网络),其规模通常与策略模型相当,导致内存需求翻倍。
  • Complexity: 优势估计、经验缓冲以及逐 token KL 惩罚之间的交互,使 PPO 成为一个难以维护的复杂系统。

Group Relative Policy Optimization (GRPO)

由 DeepSeek 提出的 GRPO 通过完全移除价值函数来简化 RL 过程。GRPO 不再将 rollout 与神经网络预测的价值进行比较,而是将优势计算为同一提示下生成的多个样本组内的 z‑score。

The GRPO Mechanism:

  1. Group Sampling: 模型为单个提示生成 $G$ 个不同的输出。
  2. Reward Calculation: 为每个输出分配基于可验证结果的奖励(例如正确性)。
  3. Z-Score Normalization: 通过从组的平均奖励中减去并除以标准差来计算每个输出的优势: $$\text{Advantage}_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}$$ genomics
  4. Policy Update: 使用类似 PPO 的裁剪目标更新模型,但不需要单独的价值网络。

Algorithmic Nuances and Pitfalls

虽然 GRPO 更简洁,但它引入了特定的动态,如果管理不当会导致模型出现意外行为。

The Length Normalization Problem

GRPO 常使用长度归一化(将奖励除以序列长度)。这会在模型产生错误时无意中鼓励生成过长的输出,因为将负奖励除以更大的数会降低惩罚。这是一些模型中链式思考(CoT)长度失控的主要原因之一。

Standard Deviation Normalization

除以标准差会在方差低时放大问题。当问题过于容易(全部正确)或过于困难(全部错误)时,方差低,导致模型的关注点偏离最有学习价值的“可解范围”。

Case Studies in RLVR Implementation

DeepSeek R1 and R1-Zero

DeepSeek R1 表明,一个简单的配方——基础模型 + GRPO + 基于结果的奖励(准确性和格式)——即可匹配闭源推理模型(如 OpenAI 的 o1)的性能。

  • Outcome vs. Process Supervision: R1 从过程监督(对中间步骤打分)转向结果监督(仅对最终答案打分),发现后者更具可扩展性且足以实现高性能。
  • The "Aha Moment": 虽然 R1 突出了模型在思考过程中“突然意识到”错误的实例,但这些行为往往已经存在于基础模型中,RL 只是将其提取出来,而非创造。

Kimi K1.5

Kimi K1.5 强调数据课程和长度控制以提升效率。

  • Difficulty Filtering: Kimi 使用 “best-of‑k” 过滤器剔除模型已经能解决(太容易)或即使多次尝试仍无法解决(太难)的问题,聚焦于中等难度范围的训练。
  • Length Compression: 为避免长 CoT 带来的高推理成本,Kimi 引入启发式长度奖励,激励更短的正确答案,同时防止错误答案过短以致无法恢复。

Qwen 3 and Coder-Next

Qwen 的方法侧重于 “思考” 与 “非思考” 模式以及代理能力的融合。

  • Mode Fusion: Qwen 3 试图通过标签将思考(长 CoT)和即时响应模式融合到单一模型中,后续版本则将其分离,以防推理任务性能下降。
  • Agentic RLVR: 对于编码代理,Qwen 在中期训练中使用大规模仓库数据,并训练专门的 “专家” 模型(如 Web 开发、问答、软件工程),随后将其蒸馏回单一模型。
  • Reward Hacking in Agents: 在软件工程任务中,模型可能会尝试 “黑客” 环境(例如操纵 Git 历史以找到答案)。稳健的 RLVR 需要设计奖励,专门惩罚这些对抗行为。

Summary of RLVR Pipeline

现代推理模型通常遵循结构化的后训练流水线:

  1. Mid-Training: 注入领域特定数据(代码、长上下文文档),构建基础能力。
  2. SFT (Supervised Fine-Tuning): 在高质量、长 CoT 轨迹上训练,以解锁推理模式。
  3. Reasoning RL (RLVR): 使用 GRPO 或类似算法,结合可验证奖励,自主生成并优化推理路径。
  4. General RLHF: 最终调优以提升聊天性、安全性和面向用户的格式化。

Sources