1層だけで十分か？RLポストトレーニングのために単一のTransformer層を訓練する

発見の要約

単一のTransformer層を訓練するだけで、大規模言語モデル（LLM）におけるフルパラメータ強化学習（RL）ポストトレーニングで得られる性能向上の大部分を回復できることが分かりました。場合によっては、RLによる効果が特定の層に極度に集中しており、単一層を孤立して訓練することで、すべてのパラメータを均等に更新するよりも優れた結果が得られることがあります。

層貢献度メトリック

個々の層の影響を定量化するために、研究者は「層貢献度」という概念を導入しました。これは、フルRL訓練で得られる総改善のうち、単一層だけを訓練したときに回復できる割合を測ります。

このメトリックにより、RL適応がTransformerアーキテクチャ全体にどのように分布しているかを体系的に研究でき、すべての層がポストトレーニングに等しく寄与するという仮定に挑戦します。

層ごとのRL効果の分布

Qwen3 と Qwen2.5 系列の 7 つの異なるモデルを対象にした調査で、層貢献度のパターンが驚くほど安定していることが判明しました。

中間層への集中: RL効果は、Transformerスタックの中間に位置するごく一部の層に強く集中しています。
端部の低貢献: 入力側および出力側に近い層は、全体的なRL改善への寄与が著しく低いです。
変数間の一貫性: この構造的パターンは、異なるデータセット、タスク（数式推論、コード生成、エージェント的意思決定を含む）、モデルファミリー、そして RL アルゴリズム（GRPO、GiGPO、Dr. GRPO を含む）にわたって強く相関しています。

実験設定と範囲

本研究の結果は、広範なパラメータ設定にわたる層別 RL 訓練の体系的調査に基づいています。

モデル: Qwen3 と Qwen2.5 系列。
アルゴリズム: GRPO、GiGPO、Dr. GRPO。
タスク領域: 数式推論、コード生成、エージェント的意思決定。
対象分野: Machine Learning (cs.LG) と Computation and Language (cs.CL)。

SUMMARY: 研究は、特にモデルスタックの中間に位置する単一のTransformer層を訓練することで、LLM におけるフルパラメータ強化学習（RL）訓練の性能向上と同等、あるいはそれ以上の効果が得られることを示しています。

TITLE: 1層だけで十分か？RLポストトレーニングのために単一のTransformer層を訓練する

1層だけで十分か？RLポストトレーニングのために単一のTransformer層を訓練する

1層だけで十分か？RLポストトレーニングのために単一のTransformer層を訓練する

発見の要約

層貢献度メトリック

層ごとのRL効果の分布

実験設定と範囲

Sources