一層夠嗎？為 RL 後訓練訓練單個 Transformer 層

一層夠嗎？為 RL 後訓練訓練單個 Transformer 層

研究結果摘要

在大型語言模型 (LLM) 中，訓練單個 transformer 層可以恢復大部分透過全參數強化學習 (RL) 後訓練所獲得的性能增益。在某些情況下，RL 的增益高度集中在特定層，單獨訓練單個層甚至可能超越統一更新所有參數的結果。

層貢獻度指標

為了量化各個層的影響，研究人員引入了「層貢獻度」的概念，該指標衡量在僅單獨訓練單個層的情況下，能從全 RL 訓練所獲得的總改進中恢復多少比例。

這個指標允許對 RL 適應如何在 transformer 架構中分佈進行系統性研究，挑戰了「每一層對後訓練過程的貢獻均等」的假設。

RL 增益在各層中的分佈

在來自 Qwen3 和 Qwen2.5 系列的七種不同模型中，研究發現了極其穩定的層貢獻模式：

中層集中化： RL 增益高度集中在層級結構的一小部分層中，這些層通常位於 transformer 堆疊的中間部分。
兩端貢獻度低： 靠近模型輸入端和輸出端的層，對整體 RL 改進的貢獻顯著較少。
跨變量的一致性： 這種結構模式在不同的數據集、任務（包括數學推理、程式碼生成和代理決策）、模型系列以及 RL 演算法（包括 GRPO、GiGPO 和 Dr. GRPO）之間保持強烈相關性。

實驗設置與範圍

研究結果是基於對 RL 訓練在廣泛參數範圍內進行的系統性逐層研究：

模型： Qwen3 和 Qwen2.5 系列。
演算法： GRPO、GiGPO 和 Dr. GRPO。
任務領域： 數學推理、程式碼生成和代理決策。
主題： Machine Learning (cs.LG) 和 Computation and Language (cs.CL)。

Sources

HNIs One Layer Enough? A Single Transformer Layer Matches Full-Parameter RL Train