Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

RLVR: 透過可驗證獎勵啟用思考模型

可驗證獎勵強化學習 (RLVR) 是一種後訓練範式,讓語言模型透過優化可客觀驗證的獎勵(例如數學正確性或程式碼執行結果),發展出複雜的推理能力——通常表現在長鏈思考 (Chain of Thought, CoT)。與依賴可能噪聲的人類偏好模型的標準 RLHF(Reinforcement Learning from Human Feedback)不同,RLVR 利用真實結果避免模型利用獎勵模型的缺陷而非提升實際表現的「過度優化」瓶頸。

從 PPO 轉向 GRPO

近端策略優化 (PPO) 長期以來是語言模型強化學習的主力,但因依賴價值模型而實作困難且計算成本高。

PPO 的限制

  • 實作敏感度: PPO 對超參數與實作細節高度敏感,常需大量「技巧」才能穩定訓練。
  • 記憶體開銷: PPO 需要一個價值模型(估算每個 token 的期望獎勵),其規模通常與策略模型相當,導致記憶體需求翻倍。
  • 複雜度: 優勢估計、經驗緩衝與逐 token KL 懲罰之間的交互,使 PPO 成為一個難以維護的複雜系統。

群組相對策略優化 (GRPO)

由 DeepSeek 提出,GRPO 透過完全移除價值函數來簡化 RL 流程。GRPO 不再將 rollout 與神經網路預測的價值比較,而是將優勢計算為同一提示下多個樣本群組內的 z 分數。

GRPO 機制:

  1. 群組抽樣: 模型為單一提示產生 $G$ 個不同輸出。
  2. 獎勵計算: 每個輸出根據可驗證的結果(例如正確性)分配獎勵。
  3. Z 分數正規化: 每個輸出的優勢透過以下方式計算: $$\text{Advantage}_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}$$
  4. 策略更新: 使用類似 PPO 的裁剪目標更新模型,但不需要額外的價值網路。

演算法細節與陷阱

雖然 GRPO 更簡單,但它引入的動態若未妥善管理,可能導致模型出現意外行為。

長度正規化問題

GRPO 常使用長度正規化(將獎勵除以序列長度)。當模型產生錯誤且獎勵為負時,除以較大的長度會降低懲罰,從而無意間鼓勵模型生成過長的輸出。這是某些模型中 Chain-of-Thought (CoT) 長度失控的主要原因之一。

標準差正規化

除以標準差會在變異度低時放大獎勵。當問題過於簡單(全部正確)或過於困難(全部錯誤)時,標準差會很小,導致模型的注意力偏離最能學習的「可解範圍」。

RLVR 實作案例研究

DeepSeek R1 與 R1‑Zero

DeepSeek R1 證明了只要使用簡單配方——基礎模型 + GRPO + 基於結果的獎勵(正確性與格式)——即可匹配封閉源推理模型(如 OpenAI 的 o1)的表現。

  • 結果 vs. 過程監督: R1 從過程監督(評分中間步驟)轉向結果監督(僅評分最終答案),發現後者更具可擴展性且足以達到高效能。
  • 「啊哈時刻」: 雖然 R1 強調模型在思考過程中「突然」意識到錯誤的情況,但這類行為往往已存在於基礎模型中,RL 只是將其抽取出來,而非創造。

Kimi K1.5

Kimi K1.5 強調資料課程與長度控制以提升效率。

  • 難度過濾: Kimi 使用「best‑of‑k」過濾器剔除模型已能解答(過易)或即使多次嘗試仍無法解答(過難)的題目,將訓練重點放在中等難度範圍。
  • 長度壓縮: 為避免長 CoT 帶來的高推理成本,Kimi 引入啟發式長度獎勵,鼓勵較短的正確答案,同時防止錯誤答案過短以致無法恢復。

Qwen 3 與 Coder‑Next

Qwen 的做法聚焦於「思考」與「非思考」模式的整合以及代理能力。

  • 模式融合: Qwen 3 嘗試使用標籤將思考(長 CoT)與即時回應模式融合於同一模型,後續版本則將兩者分離,以防推理任務性能下降。
  • 代理式 RLVR: 在程式碼代理方面,Qwen 於中期訓練大量倉庫規模資料,並訓練專門的「專家」模型(如 Web 開發、問答、軟體工程),最後再蒸餾回單一模型。
  • 代理的獎勵駭客: 在軟體工程任務中,模型可能會「駭」環境(例如操縱 Git 歷史以找到答案)。健全的 RLVR 必須設計獎勵,明確懲罰此類對抗行為。

RLVR 流程總結

現代推理模型大致遵循以下結構化後訓練流程:

  1. 中期訓練 (Mid‑Training): 注入領域特定資料(程式碼、長上下文文件)以建立基礎能力。
  2. SFT(監督式微調): 使用高品質、長 CoT 追蹤資料訓練,解鎖推理模式。
  3. 推理 RL (RLVR): 以 GRPO 或類似演算法,結合可驗證獎勵自行生成與精煉推理路徑。
  4. 一般 RLHF: 最終微調以提升聊天性、安全性與使用者介面格式。

SUMMARY: 本講座探討可驗證獎勵強化學習 (RLVR),說明 GRPO 等演算法如何以群組式獎勵取代複雜的價值函數,從而打造能在數學與程式碼領域執行複雜推理的「思考模型」。

TITLE: Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

Sources