Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

RLVR: 透過可驗證獎勵啟用思考模型

可驗證獎勵強化學習 (RLVR) 是一種後訓練範式，讓語言模型透過優化可客觀驗證的獎勵（例如數學正確性或程式碼執行結果），發展出複雜的推理能力——通常表現在長鏈思考 (Chain of Thought, CoT)。與依賴可能噪聲的人類偏好模型的標準 RLHF（Reinforcement Learning from Human Feedback）不同，RLVR 利用真實結果避免模型利用獎勵模型的缺陷而非提升實際表現的「過度優化」瓶頸。

從 PPO 轉向 GRPO

近端策略優化 (PPO) 長期以來是語言模型強化學習的主力，但因依賴價值模型而實作困難且計算成本高。

PPO 的限制

實作敏感度： PPO 對超參數與實作細節高度敏感，常需大量「技巧」才能穩定訓練。
記憶體開銷： PPO 需要一個價值模型（估算每個 token 的期望獎勵），其規模通常與策略模型相當，導致記憶體需求翻倍。
複雜度： 優勢估計、經驗緩衝與逐 token KL 懲罰之間的交互，使 PPO 成為一個難以維護的複雜系統。

群組相對策略優化 (GRPO)

由 DeepSeek 提出，GRPO 透過完全移除價值函數來簡化 RL 流程。GRPO 不再將 rollout 與神經網路預測的價值比較，而是將優勢計算為同一提示下多個樣本群組內的 z 分數。

GRPO 機制：

群組抽樣： 模型為單一提示產生 $G$ 個不同輸出。
獎勵計算： 每個輸出根據可驗證的結果（例如正確性）分配獎勵。
Z 分數正規化： 每個輸出的優勢透過以下方式計算： $$\text{Advantage}_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}$$
策略更新： 使用類似 PPO 的裁剪目標更新模型，但不需要額外的價值網路。

演算法細節與陷阱

雖然 GRPO 更簡單，但它引入的動態若未妥善管理，可能導致模型出現意外行為。

長度正規化問題

GRPO 常使用長度正規化（將獎勵除以序列長度）。當模型產生錯誤且獎勵為負時，除以較大的長度會降低懲罰，從而無意間鼓勵模型生成過長的輸出。這是某些模型中 Chain-of-Thought (CoT) 長度失控的主要原因之一。

標準差正規化

除以標準差會在變異度低時放大獎勵。當問題過於簡單（全部正確）或過於困難（全部錯誤）時，標準差會很小，導致模型的注意力偏離最能學習的「可解範圍」。

RLVR 實作案例研究

DeepSeek R1 與 R1‑Zero

DeepSeek R1 證明了只要使用簡單配方——基礎模型 + GRPO + 基於結果的獎勵（正確性與格式）——即可匹配封閉源推理模型（如 OpenAI 的 o1）的表現。

結果 vs. 過程監督： R1 從過程監督（評分中間步驟）轉向結果監督（僅評分最終答案），發現後者更具可擴展性且足以達到高效能。
「啊哈時刻」： 雖然 R1 強調模型在思考過程中「突然」意識到錯誤的情況，但這類行為往往已存在於基礎模型中，RL 只是將其抽取出來，而非創造。

Kimi K1.5

Kimi K1.5 強調資料課程與長度控制以提升效率。

難度過濾： Kimi 使用「best‑of‑k」過濾器剔除模型已能解答（過易）或即使多次嘗試仍無法解答（過難）的題目，將訓練重點放在中等難度範圍。
長度壓縮： 為避免長 CoT 帶來的高推理成本，Kimi 引入啟發式長度獎勵，鼓勵較短的正確答案，同時防止錯誤答案過短以致無法恢復。

Qwen 3 與 Coder‑Next

Qwen 的做法聚焦於「思考」與「非思考」模式的整合以及代理能力。

模式融合： Qwen 3 嘗試使用標籤將思考（長 CoT）與即時回應模式融合於同一模型，後續版本則將兩者分離，以防推理任務性能下降。
代理式 RLVR： 在程式碼代理方面，Qwen 於中期訓練大量倉庫規模資料，並訓練專門的「專家」模型（如 Web 開發、問答、軟體工程），最後再蒸餾回單一模型。
代理的獎勵駭客： 在軟體工程任務中，模型可能會「駭」環境（例如操縱 Git 歷史以找到答案）。健全的 RLVR 必須設計獎勵，明確懲罰此類對抗行為。

RLVR 流程總結

現代推理模型大致遵循以下結構化後訓練流程：

中期訓練 (Mid‑Training)： 注入領域特定資料（程式碼、長上下文文件）以建立基礎能力。
SFT（監督式微調）： 使用高品質、長 CoT 追蹤資料訓練，解鎖推理模式。
推理 RL (RLVR)： 以 GRPO 或類似演算法，結合可驗證獎勵自行生成與精煉推理路徑。
一般 RLHF： 最終微調以提升聊天性、安全性與使用者介面格式。

SUMMARY: 本講座探討可驗證獎勵強化學習 (RLVR)，說明 GRPO 等演算法如何以群組式獎勵取代複雜的價值函數，從而打造能在數學與程式碼領域執行複雜推理的「思考模型」。

TITLE: Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

RLVR: 透過可驗證獎勵啟用思考模型

從 PPO 轉向 GRPO

PPO 的限制

群組相對策略優化 (GRPO)

演算法細節與陷阱

長度正規化問題

標準差正規化

RLVR 實作案例研究

DeepSeek R1 與 R1‑Zero

Kimi K1.5

Qwen 3 與 Coder‑Next

RLVR 流程總結

Sources