하나의 레이어만으로 충분할까? RL 사후 학습을 위한 단일 트랜스포머 레이어 학습

주요 결과 요약

단일 트랜스포머 레이어를 학습하면 대형 언어 모델(LLM)에서 전체 파라미터 강화학습(RL) 사후 학습으로 얻은 대부분의 성능 향상을 회복할 수 있다. 경우에 따라서는 RL 향상이 특정 레이어에 매우 집중되어 있어, 단일 레이어만 별도로 학습했을 때 전체 파라미터를 균일하게 업데이트하는 것보다 오히려 더 좋은 결과를 얻을 수도 있다.

레이어 기여도 지표

개별 레이어의 영향을 정량화하기 위해 연구진은 "레이어 기여도"라는 개념을 도입했다. 이는 전체 RL 학습을 통해 얻은 총 향상 중, 단일 레이어만 별도로 학습했을 때 회복되는 비율을 측정한다.

이 지표를 통해 RL 적응이 트랜스포머 아키텍처 전반에 어떻게 분포되는지 체계적으로 연구할 수 있으며, 모든 레이어가 사후 학습에 동일하게 기여한다는 가정을 뒤흔든다.

레이어별 RL 향상 분포

Qwen3 및 Qwen2.5 계열의 7가지 모델을 대상으로 조사한 결과, 레이어 기여도 패턴이 놀라울 정도로 안정적이었다:

중간 레이어 집중: RL 향상은 트랜스포머 스택의 중간에 위치한 소수 레이어에 크게 집중된다.
양끝 레이어 낮은 기여: 모델의 입력 쪽과 출력 쪽에 가까운 레이어는 전체 RL 향상에 상대적으로 거의 기여하지 않는다.
다양한 변수에 걸친 일관성: 이 구조적 패턴은 서로 다른 데이터셋, 작업(수학적 추론, 코드 생성, 에이전트 의사결정 포함), 모델 계열, 그리고 RL 알고리즘(GRPO, GiGPO, Dr. GRPO) 전반에 걸쳐 강하게 상관된다.

실험 설정 및 범위

연구 결과는 다양한 파라미터에 걸친 체계적인 레이어별 RL 학습 연구에 기반한다:

모델: Qwen3 및 Qwen2.5 계열
알고리즘: GRPO, GiGPO, Dr. GRPO
작업 도메인: 수학적 추론, 코드 생성, 에이전트 의사결정
주제: 머신러닝(cs.LG) 및 컴퓨테이션 앤 랭귀지(cs.CL)

요약: 연구에 따르면 모델 스택의 중간에 위치한 단일 트랜스포머 레이어를 학습하면 LLM에서 전체 파라미터 강화학습(RL) 훈련이 제공하는 성능 향상을 동일하게 맞추거나 능가할 수 있다.

제목: 하나의 레이어만으로 충분할까? RL 사후 학습을 위한 단일 트랜스포머 레이어 학습

하나의 레이어만으로 충분할까? RL 사후 학습을 위한 단일 트랜스포머 레이어 학습

하나의 레이어만으로 충분할까? RL 사후 학습을 위한 단일 트랜스포머 레이어 학습

주요 결과 요약

레이어 기여도 지표

레이어별 RL 향상 분포

실험 설정 및 범위

Sources