一層夠嗎?為 RL 後訓練訓練單個 Transformer 層
一層夠嗎?為 RL 後訓練訓練單個 Transformer 層
研究結果摘要
在大型語言模型 (LLM) 中,訓練單個 transformer 層可以恢復大部分透過全參數強化學習 (RL) 後訓練所獲得的性能增益。在某些情況下,RL 的增益高度集中在特定層,單獨訓練單個層甚至可能超越統一更新所有參數的結果。
層貢獻度指標
為了量化各個層的影響,研究人員引入了「層貢獻度」的概念,該指標衡量在僅單獨訓練單個層的情況下,能從全 RL 訓練所獲得的總改進中恢復多少比例。
這個指標允許對 RL 適應如何在 transformer 架構中分佈進行系統性研究,挑戰了「每一層對後訓練過程的貢獻均等」的假設。
RL 增益在各層中的分佈
在來自 Qwen3 和 Qwen2.5 系列的七種不同模型中,研究發現了極其穩定的層貢獻模式:
- 中層集中化: RL 增益高度集中在層級結構的一小部分層中,這些層通常位於 transformer 堆疊的中間部分。
- 兩端貢獻度低: 靠近模型輸入端和輸出端的層,對整體 RL 改進的貢獻顯著較少。
- 跨變量的一致性: 這種結構模式在不同的數據集、任務(包括數學推理、程式碼生成和代理決策)、模型系列以及 RL 演算法(包括 GRPO、GiGPO 和 Dr. GRPO)之間保持強烈相關性。
實驗設置與範圍
研究結果是基於對 RL 訓練在廣泛參數範圍內進行的系統性逐層研究:
- 模型: Qwen3 和 Qwen2.5 系列。
- 演算法: GRPO、GiGPO 和 Dr. GRPO。
- 任務領域: 數學推理、程式碼生成和代理決策。
- 主題: Machine Learning (cs.LG) 和 Computation and Language (cs.CL)。