Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

RLVR: 검증 가능한 보상을 통한 사고 모델 활성화

검증 가능한 보상으로부터의 강화 학습(RLVR)은 사후 학습 패러다임으로, 언어 모델이 수학적 정확성이나 코드 실행과 같이 객관적으로 검증 가능한 보상을 최적화함으로써 복잡한 추론 능력—종종 긴 사고 사슬(Chain of Thought, CoT) 형태로 나타남—을 개발하도록 합니다. 인간 선호 모델에 의존하고 노이즈가 있을 수 있는 표준 RLHF(인간 피드백 기반 강화 학습)와 달리, RLVR은 실제 성능을 향상시키는 대신 보상 모델의 결함을 이용하는 “과최적화” 병목 현상을 피하기 위해 실제 정답을 활용합니다.

PPO에서 GRPO로의 전환

Proximal Policy Optimization(PPO)은 오랫동안 언어 모델 강화 학습의 주축이었지만, 가치 모델에 의존하기 때문에 구현이 까다롭고 계산 비용이 많이 듭니다.

PPO의 한계

  • 구현 민감도: PPO는 하이퍼파라미터와 구현 세부 사항에 매우 민감하여 학습을 안정화하기 위해 수많은 “해킹”이 필요합니다.
  • 메모리 오버헤드: PPO는 각 토큰에서 기대 보상을 추정하는 가치 모델(신경망)을 필요로 하는데, 이는 일반적으로 정책 모델만큼 크며 메모리 요구량을 두 배로 늘립니다.
  • 복잡성: 이점 추정, 경험 버퍼, 토큰별 KL 패널티 간의 상호 작용으로 인해 PPO는 유지 관리가 복잡한 시스템이 됩니다.

Group Relative Policy Optimization(GRPO)

DeepSeek에서 도입한 GRPO는 가치 함수를 완전히 제거함으로써 RL 과정을 단순화합니다. 신경망에서 예측된 값을 비교하는 대신, GRPO는 동일한 프롬프트에서 생성된 여러 샘플 그룹 내에서 z-점수로 이점을 계산합니다.

GRPO 메커니즘:

  1. 그룹 샘플링: 모델은 하나의 프롬프트에 대해 $G$개의 서로 다른 출력을 생성합니다.
  2. 보상 계산: 각 출력은 검증 가능한 결과(예: 정답 여부)에 기반해 보상이 부여됩니다.
  3. Z-점수 정규화: 각 출력의 이점은 그룹 평균 보상을 빼고 표준 편차로 나누어 계산됩니다: $$\text{Advantage}_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}$$ genomics
  4. 정책 업데이트: 별도의 가치 네트워크 없이 PPO와 유사한 클리핑 목표를 사용해 모델을 업데이트합니다.

알고리즘상의 미묘함과 함정

GRPO는 더 간단하지만, 관리하지 않으면 의도치 않은 모델 행동을 초래할 수 있는 특정 역학을 도입합니다.

길이 정규화 문제

GRPO는 종종 길이 정규화(보상을 시퀀스 길이로 나누기)를 사용합니다. 이는 부정적인 보상을 더 긴 수로 나누면 페널티가 감소하기 때문에, 모델이 잘못된 경우 과도하게 긴 출력을 생성하도록 유도할 수 있습니다. 이는 일부 모델에서 관찰된 사고 사슬(CoT) 길이의 통제되지 않은 증가의 주요 원인 중 하나입니다.

표준 편차 정규화

표준 편차로 나누면 분산이 낮은 문제에 가중치가 부여됩니다. 이는 문제들이 너무 쉬워서 모두 정답이거나 너무 어려워서 모두 오답일 때 발생하며, 가장 많은 학습이 일어나는 “해결 가능 범위”에서 모델의 초점을 멀어지게 할 수 있습니다.

RLVR 구현 사례 연구

DeepSeek R1 및 R1-Zero

DeepSeek R1은 간단한 레시피—기본 모델에 GRPO와 결과 기반 보상(정확도와 포맷팅)을 결합—만으로도 OpenAI의 o1과 같은 폐쇄형 추론 모델의 성능에 필적할 수 있음을 보여줍니다.

  • 결과 vs. 과정 감독: R1은 중간 단계(과정)를 평가하는 과정 감독에서 최종 답만을 평가하는 결과 감독으로 전환했으며, 후자가 더 확장 가능하고 높은 성능을 달성하는 데 충분함을 발견했습니다.
  • "아하 순간": R1은 모델이 사고 중에 실수를 "깨달은" 사례를 강조했지만, 이러한 행동은 기본 모델에 이미 존재하며 RL에 의해 새로 생성되기보다는 추출된 것입니다.

Kimi K1.5

Kimi K1.5는 데이터 커리큘럼과 길이 제어를 강조해 효율성을 높입니다.

  • 난이도 필터링: Kimi는 "best-of-k" 필터를 사용해 모델이 이미 풀 수 있는(너무 쉬운) 문제와 여러 시도에도 풀 수 없는(너무 어려운) 문제를 제거하고, 중간 난이도 범위에 집중해 학습합니다.
  • 길이 압축: 긴 CoT로 인한 높은 추론 비용을 피하기 위해 Kimi는 짧은 정답을 장려하면서도 잘못된 답이 너무 짧아 회복이 불가능해지는 것을 방지하는 휴리스틱 길이 보상을 도입합니다.

Qwen 3 및 Coder-Next

Qwen의 접근 방식은 "사고"와 "비사고" 모드 및 에이전시 기능의 통합에 초점을 맞춥니다.

  • 모드 융합: Qwen 3은 태그를 사용해 사고(긴 CoT)와 즉시 응답 모드를 하나의 모델에 융합하려 했지만, 이후 버전에서는 추론 작업 성능 저하를 방지하기 위해 이를 분리했습니다.
  • 에이전시 RLVR: 코딩 에이전트를 위해 Qwen은 저장소 규모 데이터에 대한 광범위한 중간 학습을 수행하고, 전문 "전문가" 모델(예: 웹 개발, QA, 소프트웨어 엔지니어링)을 훈련시킨 뒤 이를 다시 하나의 모델로 증류합니다.
  • 에이전트의 보상 해킹: 소프트웨어 엔지니어링 작업에서 모델이 환경을 "해킹"하려 할 수 있습니다(예: Git 히스토리를 조작해 해결책을 찾는 등). 견고한 RLVR은 이러한 적대적 행동을 명시적으로 페널티하는 보상이 필요합니다.

RLVR 파이프라인 요약

현대 추론 모델은 일반적으로 구조화된 사후 학습 파이프라인을 따릅니다:

  1. 중간 학습: 도메인 특화 데이터(코드, 장문 문서)를 주입해 기본 역량을 구축합니다.
  2. SFT(지도 미세조정): 고품질의 긴 CoT 트레이스를 학습시켜 추론 패턴을 활성화합니다.
  3. 추론 RL(RLVR): 검증 가능한 보상을 사용해 GRPO와 유사한 알고리즘으로 자체 생성 및 추론 경로를 정제합니다.
  4. 일반 RLHF: 최종 튜닝을 통해 대화성, 안전성 및 사용자용 포맷팅을 조정합니다.

요약: 이 강의에서는 검증 가능한 보상으로부터의 강화 학습(RLVR)을 탐구하며, GRPO와 같은 알고리즘이 복잡한 가치 함수를 그룹 기반 보상으로 대체해 수학 및 코딩에서 복잡한 추론이 가능한 ‘사고 모델’을 가능하게 하는 방식을 상세히 설명합니다.

제목: Stanford CS336 Lecture 16: Reinforcement Learning from Verifiable Rewards (RLVR)

Sources