Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

RLVR: Verifiable Rewards による Thinking Model の実現

Reinforcement Learning from Verifiable Rewards (RLVR) は、言語モデルが長い Chain of Thought (CoT) として現れる複雑な推論能力を、数学的正確性やコード実行といった客観的に検証可能な報酬を最適化することで獲得できる、ポストトレーニングパラダイムです。標準的な RLHF(Reinforcement Learning from Human Feedback)は、ノイズが混入しやすい人間の好みモデルに依存しますが、RLVR は真の結果(ground‑truth)を利用することで、モデルが報酬モデルの欠陥を利用して実際の性能向上を妨げる「過剰最適化」のボトルネックを回避します。

PPO から GRPO へのシフト

Proximal Policy Optimization (PPO) は長らく言語モデル向け RL の主力手法でしたが、価値モデルに依存するため実装が難しく、計算コストも高いことで知られています。

PPO の制限事項

  • 実装感度: PPO はハイパーパラメータや実装の細部に非常に敏感で、学習を安定させるために多数の「ハック」が必要になることが多いです。
  • メモリオーバーヘッド: PPO では、各トークンの期待報酬を推定する価値モデル(ニューラルネット)が必要で、通常はポリシーモデルと同等のサイズになるため、メモリ使用量が倍増します。
  • 複雑性: Advantage 推定、経験バッファ、トークン単位の KL ペナルティなどが絡み合い、保守が難しい複雑なシステムになります。

Group Relative Policy Optimization (GRPO)

DeepSeek が提案した GRPO は、価値関数を完全に排除することで RL プロセスをシンプルにします。ニューラルネットから予測された価値とロールアウトを比較する代わりに、同一プロンプトから生成された複数サンプルのグループ内で z‑score を用いて advantage を計算します。

GRPO の仕組み:

  1. グループサンプリング: 同一プロンプトに対してモデルが $G$ 個の異なる出力を生成します。
  2. 報酬計算: 各出力に対し、検証可能な結果(例: 正確性)に基づく報酬を付与します。
  3. Z‑Score 正規化: 各出力の advantage は、グループの平均報酬を引き、標準偏差で割って求めます: $$\text{Advantage}_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}$$
  4. ポリシー更新: PPO と同様のクリップド目的関数を用いてモデルを更新しますが、別個の価値ネットワークは不要です。

アルゴリズム上の微妙な点と落とし穴

GRPO はシンプルですが、管理しないと意図しないモデル挙動を引き起こす特有のダイナミクスがあります。

長さ正規化の問題

GRPO はしばしば長さ正規化(報酬をシーケンス長で割る)を採用します。これにより、負の報酬を長いシーケンスで割るとペナルティが小さくなるため、モデルが誤った長文を生成しやすくなります。これが一部のモデルで観測される Chain‑of‑Thought (CoT) の長さが制御不能に増大する主因です。

標準偏差正規化

標準偏差で割ることで、分散が小さいケースが過度に重み付けされます。問題が極端に簡単(すべて正解)または極端に難しい(すべて不正解)場合に起こり、学習が最も効果的に進む「解ける範囲」からモデルの焦点が外れてしまいます。

RLVR 実装のケーススタディ

DeepSeek R1 と R1‑Zero

DeepSeek R1 は、ベースモデルに GRPO と結果ベースの報酬(正確性とフォーマット)を組み合わせるだけのシンプルなレシピで、OpenAI の o1 のようなクローズドソース推論モデルに匹敵する性能を示しました。

  • 結果 vs. プロセス監督: R1 は中間ステップを評価するプロセス監督から、最終回答のみを評価する結果監督へとシフトし、後者の方がスケーラビリティが高く、十分な性能を発揮することを確認しました。
  • 「 aha 瞬間」: R1 ではモデルが思考途中でミスに気付くように見えるケースがハイライトされましたが、こうした振る舞いはベースモデルに元々備わっており、RL によって新たに作られるというよりは抽出されるものです。

Kimi K1.5

Kimi K1.5 はデータカリキュラムと長さ制御に重点を置き、効率性を向上させています。

  • 難易度フィルタリング: Kimi は「best‑of‑k」フィルタを用いて、モデルがすでに解ける(簡すぎる)問題や、複数回試みても解けない(難しすぎる)問題を除外し、訓練を中難易度領域に集中させます。
  • 長さ圧縮: 長い CoT に伴う推論コスト増大を防ぐため、正解で短い回答を奨励しつつ、誤答が極端に短くなりすぎて回復できなくなるのを防ぐヒューリスティックな長さ報酬を導入しています。

Qwen 3 と Coder‑Next

Qwen 系列は「思考」モードと「非思考」モード、そしてエージェント機能の統合に焦点を当てています。

  • モード融合: Qwen 3 はタグを用いて長い CoT と即時応答モードを単一モデルに統合しようと試みましたが、後続バージョンでは推論タスクの性能低下を防ぐために別モデルに分離しました。
  • エージェント的 RLVR: コーディングエージェント向けに、リポジトリ規模のデータで大規模中間学習を行い、Web 開発、QA、ソフトウェアエンジニアリングなどの専門「エキスパート」モデルを訓練し、最終的にそれらを単一モデルに蒸留します。
  • エージェントにおける報酬ハッキング: ソフトウェア工学タスクでは、モデルが Git 履歴を操作して解答を得ようとするなど環境をハックしようとすることがあります。堅牢な RLVR では、こうした敵対的行動を明示的に罰する報酬設計が必要です。

RLVR パイプラインの要約

最新の推論モデルは概ね以下の構造化されたポストトレーニングパイプラインに従います:

  1. 中間学習 (Mid‑Training): ドメイン固有データ(コード、長文コンテキスト)を注入し、基礎能力を構築。
  2. SFT (Supervised Fine‑Tuning): 高品質な長い CoT トレースで学習し、推論パターンを解放。
  3. Reasoning RL (RLVR): GRPO などのアルゴリズムと検証可能な報酬を用いて、自己生成した推論経路を洗練。
  4. 一般的 RLHF: チャット性、安全性、ユーザー向けフォーマット調整の最終チューニング。

SUMMARY: この講義では、検証可能な報酬(RLVR)による強化学習を取り上げ、GRPO のようなアルゴリズムが価値関数をグループベースの報酬に置き換えることで、数学やコーディングにおける複雑な推論を可能にする「思考モデル」を実現する方法を詳述しました。

TITLE: Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

Sources