Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)

Post-Training: From Base Models to Assistants

Post-Training은 강력한 기본 모델(예: GPT‑3)을 유용하고 지시를 따르는 어시스턴트(예: ChatGPT)로 변환하는 과정입니다. 사전 학습이 넓은 지식 기반—즉 “원시 수프”—를 제공한다면, Post‑Training은 명시적인 데이터 수집과 스티어링을 통해 신뢰성 및 세밀한 제어와 같은 구체적인 행동을 추출합니다.

Supervised Fine-Tuning (SFT)

SFT는 Post‑Training의 첫 단계로, 모델을 고품질 입력‑출력 쌍으로 학습시킵니다. SFT의 주요 과제는 알고리즘이 아니라(표준 경사 하강법) 데이터 큐레이션입니다.

Evolution of SFT Data

데이터 전략은 대규모 프로그램 기반 데이터셋에서 고품질 인간‑유사 상호작용으로 진화했습니다:

FLAN: 초기 시도는 기존 NLP 벤치마크를 활용해 멀티태스크 데이터셋을 만들었습니다. 그러나 구조가 부자연스럽고 환각이 많이 포함돼 규모보다 품질이 더 중요함을 보여주었습니다.
Self‑Instruct & Distillation (예: Alpaca, Vicuna): 더 강력한 모델을 사용해 합성 지시‑응답 데이터를 생성함으로써 기본 모델에 채팅‑유사 행동을 안정적으로 유도합니다.
Human‑Driven Efforts (예: Open Assistant): 크라우드소싱을 통해 전문가 수준의 프롬프트와 응답을 만들어 폐쇄형 모델의 성능에 맞춥니다.
Agentic SFT (예: Nemotron): 현재 트렌드는 단순 채팅에서 에이전트 행동으로 이동하며, 도구 호출 및 구조화된 할 일 목록을 SFT 데이터에 포함합니다.

Key Pitfalls in SFT Data Collection

Style vs. Capability: 사용자는 종종 글머리표나 긴 답변을 선호하지만, 이는 실제 능력 향상과는 무관합니다. 이로 인해 참여 신호는 증가하지만 실제 지능은 향상되지 않는 “길이 해킹” 위험이 있습니다.
The Hallucination Trap: SFT 중에 모델이 아직 모르는 “꼬리 지식”(facts)을 특정 형식(예: "Reference: [Citation]")으로 강제 출력하도록 하면, 모델은 정보를 조작해 형식을 흉내 내는 환각을 학습할 수 있습니다.
Safety Tuning: Safety SFT는 “위반률”(나쁜 질의 허용)과 “오탐 거부율”(무해한 질의를 거부) 사이의 균형을 맞춥니다. 이는 보통 수천 개의 목표 거부 예시로 수행됩니다.

Mid-Training: Blurring the Lines

현대 학습 파이프라인은 종종 SFT를 사전 학습 단계와 결합합니다. “감쇠 단계”(사전 학습 말기)에서는 고품질 채팅 및 SFT 데이터를 일반 웹 데이터와 혼합합니다. 이는 모델이 배포에 가장 가까운 시점에서 고품질 데이터에 더 많이 노출되도록 하여 지시‑튜닝을 확장합니다.

Reinforcement Learning from Human Feedback (RLHF)

RLHF는 목표를 생성 모델링(분포 맞추기)에서 보상 최대화로 전환합니다. 인간이 출력물을 생성하는 것보다 평가하는 것이 더 쉬운 경우가 많고, 수학처럼 검증이 생성보다 쉬운 분야에서 특히 유용합니다.

The RLHF Pipeline

Sampling: SFT 모델이 프롬프트에 대해 여러 후보 응답을 생성합니다.
Ranking: 인간 평가자가 유용성, 진실성, 무해성 등 기준으로 응답을 순위 매깁니다.
Reward Modeling: 인간 선호도를 예측하도록 보상 모델을 학습합니다.
Optimization: 정책을 업데이트해 보상을 최대화합니다. 이때 KL 발산 항을 포함해 모델이 기본 모델에서 너무 멀어지지 않도록 제어합니다.

The Role of the Annotator

주석 작업은 저비용 크라우드 작업에서 고비용 전문가 작업으로 전환되었습니다. 의사, 변호사 등 전문가는 높은 시급을 받고 고충실도 피드백을 제공합니다. 주석자의 인구통계·이념적 구성은 모델의 최종 정렬 및 정치적 성향에 직접적인 영향을 미칩니다.

RLHF Algorithms: PPO vs. DPO

PPO (Proximal Policy Optimization): 전통적인 접근법으로, 별도의 보상 모델과 온‑폴리시 샘플링이 필요해 계산 비용이 큽니다.
DPO (Direct Preference Optimization): 보상 모델과 온‑폴리시 샘플링을 없애는 간단한 대안입니다. DPO는 RLHF를 분류 문제로 보고, 선호되는 응답의 가능성을 높이고 거부된 응답의 가능성을 낮추는 방향으로 그래디언트를 적용합니다.

Challenges in RLHF

Over‑optimization: RLHF를 과도하게 적용하면 보상 모델에 과적합되는 “보상 해킹”이 발생해 실제 유용성이 향상되지 않을 수 있습니다.
Model Collapse: RLHF는 출력 다양성을 감소시켜, 모델이 모든 입력에 대해 단일 고보상 점으로 분포를 수축시킵니다.
Calibration: RLHF는 모델을 비정규화된 상태로 남겨, 모델이 답변에 대한 자신감이 실제 정답 확률을 정확히 반영하지 못하게 합니다.

SUMMARY: 이 강의는 Supervised Fine‑Tuning(SFT)과 Reinforcement Learning from Human Feedback(RLHF)를 통해 기본 언어 모델을 지시‑추종 어시스턴트로 전환하는 과정을 설명합니다. 알고리즘의 복잡성보다 데이터 품질과 큐레이션이 더 중요함을 강조합니다.

TITLE: Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)

Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)

Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)

Post-Training: From Base Models to Assistants

Supervised Fine-Tuning (SFT)

Evolution of SFT Data

Key Pitfalls in SFT Data Collection

Mid-Training: Blurring the Lines

Reinforcement Learning from Human Feedback (RLHF)

The RLHF Pipeline

The Role of the Annotator

RLHF Algorithms: PPO vs. DPO

Challenges in RLHF

Sources