单层足够吗？对 RL 后训练仅训练单个 Transformer 层

单层足够吗？对 RL 后训练仅训练单个 Transformer 层

研究发现概述

在大型语言模型（LLM）中，仅训练单个 Transformer 层即可恢复通过全参数强化学习（RL）后训练获得的大部分性能提升。在某些情况下，RL 的收益高度集中在特定层上，单独训练这一层甚至可以超越对所有参数统一更新的结果。

层贡献度指标

为了量化各层的影响，研究者提出了“层贡献度”概念，它衡量在仅对单层进行孤立训练时，能够恢复的全 RL 训练所带来的总体改进的比例。

该指标使得我们能够系统地研究 RL 适配在 Transformer 架构中的分布情况，挑战了每层对后训练过程贡献相同的假设。

RL 收益在层间的分布

在来自 Qwen3 与 Qwen2.5 系列的七个不同模型中，研究发现层贡献度呈现出极其稳定的模式：

中间层集中：RL 收益高度集中在少数层上，这些层通常位于 Transformer 堆栈的中部。
两端贡献低：模型输入端和输出端附近的层对整体 RL 改进的贡献显著更少。
跨变量的一致性：该结构性模式在不同数据集、任务（包括数学推理、代码生成和代理决策）、模型系列以及 RL 算法（包括 GRPO、GiGPO 和 Dr. GRPO）之间保持强相关性。

实验设置与范围

本研究的结论基于对 RL 训练进行系统的层级研究，覆盖了广泛的参数组合：

模型：Qwen3 与 Qwen2.5 系列。
算法：GRPO、GiGPO 和 Dr. GRPO。
任务领域：数学推理、代码生成和代理决策。
学科：机器学习 (cs.LG) 与计算与语言 (cs.CL)。

摘要：研究表明，训练单个 Transformer 层，尤其是模型堆栈中部的层，能够匹配或超越全参数强化学习（RL）训练在 LLM 中带来的性能提升。

标题：单层足够吗？对 RL 后训练仅训练单个 Transformer 层

Sources

HNIs One Layer Enough? A Single Transformer Layer Matches Full-Parameter RL Train