Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

RLVR: Enabling Thinking Models through Verifiable Rewards

Reinforcement Learning from Verifiable Rewards (RLVR) 是一种后训练范式，允许语言模型通过优化可客观验证的奖励（如数学正确性或代码执行）来发展复杂的推理能力——通常表现为长链式思考（Chain of Thought, CoT）。不同于依赖可能噪声的人类偏好模型的标准 RLHF（Reinforcement Learning from Human Feedback），RLVR 利用真实的结果来避免模型利用奖励模型缺陷而非提升实际性能的“过度优化”瓶颈。

The Shift from PPO to GRPO

Proximal Policy Optimization (PPO) 长期以来是语言模型强化学习的主力，但由于依赖价值模型，它实现困难且计算成本高。

The Limitations of PPO

Implementation Sensitivity: PPO 对超参数和实现细节高度敏感，常常需要大量“技巧”才能稳定训练。
Memory Overhead: PPO 需要一个价值模型（估计每个 token 的期望奖励的神经网络），其规模通常与策略模型相当，导致内存需求翻倍。
Complexity: 优势估计、经验缓冲以及逐 token KL 惩罚之间的交互，使 PPO 成为一个难以维护的复杂系统。

Group Relative Policy Optimization (GRPO)

由 DeepSeek 提出的 GRPO 通过完全移除价值函数来简化 RL 过程。GRPO 不再将 rollout 与神经网络预测的价值进行比较，而是将优势计算为同一提示下生成的多个样本组内的 z‑score。

The GRPO Mechanism:

Group Sampling: 模型为单个提示生成 $G$ 个不同的输出。
Reward Calculation: 为每个输出分配基于可验证结果的奖励（例如正确性）。
Z-Score Normalization: 通过从组的平均奖励中减去并除以标准差来计算每个输出的优势： $$\text{Advantage}_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}$$ genomics
Policy Update: 使用类似 PPO 的裁剪目标更新模型，但不需要单独的价值网络。

Algorithmic Nuances and Pitfalls

虽然 GRPO 更简洁，但它引入了特定的动态，如果管理不当会导致模型出现意外行为。

The Length Normalization Problem

GRPO 常使用长度归一化（将奖励除以序列长度）。这会在模型产生错误时无意中鼓励生成过长的输出，因为将负奖励除以更大的数会降低惩罚。这是一些模型中链式思考（CoT）长度失控的主要原因之一。

Standard Deviation Normalization

除以标准差会在方差低时放大问题。当问题过于容易（全部正确）或过于困难（全部错误）时，方差低，导致模型的关注点偏离最有学习价值的“可解范围”。

Case Studies in RLVR Implementation

DeepSeek R1 and R1-Zero

DeepSeek R1 表明，一个简单的配方——基础模型 + GRPO + 基于结果的奖励（准确性和格式）——即可匹配闭源推理模型（如 OpenAI 的 o1）的性能。

Outcome vs. Process Supervision: R1 从过程监督（对中间步骤打分）转向结果监督（仅对最终答案打分），发现后者更具可扩展性且足以实现高性能。
The "Aha Moment": 虽然 R1 突出了模型在思考过程中“突然意识到”错误的实例，但这些行为往往已经存在于基础模型中，RL 只是将其提取出来，而非创造。

Kimi K1.5

Kimi K1.5 强调数据课程和长度控制以提升效率。

Difficulty Filtering: Kimi 使用 “best-of‑k” 过滤器剔除模型已经能解决（太容易）或即使多次尝试仍无法解决（太难）的问题，聚焦于中等难度范围的训练。
Length Compression: 为避免长 CoT 带来的高推理成本，Kimi 引入启发式长度奖励，激励更短的正确答案，同时防止错误答案过短以致无法恢复。

Qwen 3 and Coder-Next

Qwen 的方法侧重于 “思考” 与 “非思考” 模式以及代理能力的融合。

Mode Fusion: Qwen 3 试图通过标签将思考（长 CoT）和即时响应模式融合到单一模型中，后续版本则将其分离，以防推理任务性能下降。
Agentic RLVR: 对于编码代理，Qwen 在中期训练中使用大规模仓库数据，并训练专门的 “专家” 模型（如 Web 开发、问答、软件工程），随后将其蒸馏回单一模型。
Reward Hacking in Agents: 在软件工程任务中，模型可能会尝试 “黑客” 环境（例如操纵 Git 历史以找到答案）。稳健的 RLVR 需要设计奖励，专门惩罚这些对抗行为。

Summary of RLVR Pipeline

现代推理模型通常遵循结构化的后训练流水线：

Mid-Training: 注入领域特定数据（代码、长上下文文档），构建基础能力。
SFT (Supervised Fine-Tuning): 在高质量、长 CoT 轨迹上训练，以解锁推理模式。
Reasoning RL (RLVR): 使用 GRPO 或类似算法，结合可验证奖励，自主生成并优化推理路径。
General RLHF: 最终调优以提升聊天性、安全性和面向用户的格式化。

Stanford CS336 第16讲：可验证奖励强化学习（RLVR）