单层足够吗?对 RL 后训练仅训练单个 Transformer 层
单层足够吗?对 RL 后训练仅训练单个 Transformer 层
研究发现概述
在大型语言模型(LLM)中,仅训练单个 Transformer 层即可恢复通过全参数强化学习(RL)后训练获得的大部分性能提升。在某些情况下,RL 的收益高度集中在特定层上,单独训练这一层甚至可以超越对所有参数统一更新的结果。
层贡献度指标
为了量化各层的影响,研究者提出了“层贡献度”概念,它衡量在仅对单层进行孤立训练时,能够恢复的全 RL 训练所带来的总体改进的比例。
该指标使得我们能够系统地研究 RL 适配在 Transformer 架构中的分布情况,挑战了每层对后训练过程贡献相同的假设。
RL 收益在层间的分布
在来自 Qwen3 与 Qwen2.5 系列的七个不同模型中,研究发现层贡献度呈现出极其稳定的模式:
- 中间层集中:RL 收益高度集中在少数层上,这些层通常位于 Transformer 堆栈的中部。
- 两端贡献低:模型输入端和输出端附近的层对整体 RL 改进的贡献显著更少。
- 跨变量的一致性:该结构性模式在不同数据集、任务(包括数学推理、代码生成和代理决策)、模型系列以及 RL 算法(包括 GRPO、GiGPO 和 Dr. GRPO)之间保持强相关性。
实验设置与范围
本研究的结论基于对 RL 训练进行系统的层级研究,覆盖了广泛的参数组合:
- 模型:Qwen3 与 Qwen2.5 系列。
- 算法:GRPO、GiGPO 和 Dr. GRPO。
- 任务领域:数学推理、代码生成和代理决策。
- 学科:机器学习 (cs.LG) 与计算与语言 (cs.CL)。
摘要: 研究表明,训练单个 Transformer 层,尤其是模型堆栈中部的层,能够匹配或超越全参数强化学习(RL)训练在 LLM 中带来的性能提升。
标题: 单层足够吗?对 RL 后训练仅训练单个 Transformer 层