다음 AI 훈련 패러다임: RLVR을 넘어 지속 학습으로

핵심 베팅: RLVR과 그 한계

AI 연구소들은 현재 수천 개의 다양한 강화 학습(RL) 환경에서 수백만 개의 검증 가능한 작업으로 모델을 훈련시키면 일반적인 문제 해결 에이전트를 만들 수 있다고 베팅하고 있습니다. 이 가설은 검증 가능한 보상으로부터의 강화 학습(RLVR) 접근 방식을 확장하면 데이터 비효율성과 지속 학습 부족이라는 결함을 극복할 수 있다는 것으로, 이는 컴퓨팅 규모 확장이 자연어 처리의 많은 문제를 해결한 방식과 유사합니다.

하지만 이 패러다임은 컨텍스트 학습(ICL)이 결국 가중치 업데이트의 필요성을 대체할 수 있다는 가정에 의존합니다. 지지자들은 컨텍스트 창이 사실상 무한해지면 모델이 배포 세션 동안 얻은 모든 경험을 가중치에 다시 녹여낼 필요 없이 단순히 저장할 수 있다고 주장합니다.

"그라인드 가능성" 병목

검증 가능성만으로는 빠른 AI 진보를 이끌 수 없습니다; 도메인은 또한 "그라인드 가능"해야 합니다. 그라인드 가능한 도메인은 동일한 시작점에서 결정론적이고 재생 가능한 시뮬레이터에 대해 수천 개의 병렬 롤아웃을 수행할 수 있는 환경을 의미합니다.

성공 사례: 코딩과 수학은 에이전트를 동일한 컨테이너와 특정 소프트웨어 저장소에서 테스트할 수 있기 때문에 매우 그라인드 가능합니다.
실패 사례: 컴퓨터 사용(예: Amazon이나 Slack 탐색)은 그라인드가 쉽지 않아 진행이 더디게 이루어집니다. 실시간 웹사이트에서 수천 개의 봇을 운영하면 계정이 차단되고, 시뮬레이터를 만들기 위해 애플리케이션을 복제하는 데 많은 노동이 필요합니다.

이 구분은 중요한 격차를 드러냅니다: 비즈니스 구축, 법정 승소, 정치 전략 등 많은 필수 인간 기술은 데이터 센터에서 시뮬레이션할 수 없습니다. 이러한 환경은 리셋이 없고 비정상적이며, 모델은 외부 루프 검증에 수개월 또는 수년이 걸릴 수 있는 희소한 실제 상호작용으로부터 학습해야 합니다.

지속 학습의 필요성

복잡하고 실제적인 도메인에서 인간 수준의 숙달을 달성하려면 AI는 RLVR을 넘어 배포 경험을 기반으로 가중치를 업데이트하는 지속 학습을 구현해야 합니다.

순수 컨텍스트 학습의 실패

컨텍스트 학습은 샘플 효율적이지만 메모리(KV 캐시) 측면에서 확장성이 좋지 않습니다. 인간 학습은 모든 관찰을 완벽히 기억하는 것이 아니라 정보를 직관과 큰 그림 지식으로 압축해 가중치에 저장합니다. 컨텍스트 창에만 의존하면 데이터를 기억하는 "천재형" 능력이 오히려 추상과 은유를 이해하는 능력을 저해할 수 있습니다.

샘플 효율성 문제

그라디언트 하강을 통한 가중치 업데이트는 알려진 바와 같이 샘플 효율성이 매우 낮습니다. 현재 대부분의 온라인 학습 모델(예: Cursor Tab)은 수백만 명의 사용자에게 동일한 목표를 학습하기 때문에 작동합니다. 진정한 지속 학습은 단일 세션에서 특정 조직이나 문제에 대한 고유하고 희소한 정보를 학습해야 하는데, 이는 기존의 지도 미세조정(SFT)으로는 데이터가 너무 부족합니다.

가중치 업데이트를 위한 제안된 솔루션

희소한 실제 데이터를 가중치 업데이트와 연결하기 위해 두 가지 주요 기술 경로가 제안됩니다:

정책 내 자기 증류(OPSD)

OPSD는 기본 모델이 "교사" 모델의 예측을 맞추도록 장려합니다—동일 모델이지만 긴 세션 전체 컨텍스트를 누적한 버전입니다.

RLVR 대비 장점: OPSD는 외부 루프의 검증 가능한 보상이 필요하지 않으며, 모델이 컨텍스트 창 내에서 올바른 행동을 학습할 수만 있으면 됩니다.
SFT 대비 장점: SFT가 관찰된 모든 토큰을 무작위로 예측하는 반면, OPSD(또는 RL)는 희소합니다. 교사와 동일한 결과를 얻는 데 필요한 지식만 추출하므로 기존 지식을 덮어쓰거나 무관한 전사를 암기하는 것을 방지합니다.

"Dreaming"(테스트 시점 훈련)

보다 투기적인 접근법은 "dreaming"으로, AI가 자체 내부 시뮬레이션을 구축해 기술을 연습하고 대안 전략을 시도합니다.

선례: EfficientZero는 모델이 실제 한 단계마다 수십 번의 시뮬레이션 게임을 머리 속에서 플레이함으로써 Atari 게임에서 인간을 능가할 수 있음을 보여주었습니다.
응용: 만약 LLM이 자체 RL 환경을 작성하고 그 환경에서 훈련할 수 있다면, 이는 사전 훈련, RL, 추론 시점 컴퓨팅에 이어 네 번째 규모 축을 만들게 됩니다.

2027‑2028 비전

다음 패러다임으로의 전환은 다음과 같은 순서를 따를 것으로 예상됩니다:

RLVR을 기반으로: RLVR은 새로운 문제에 직면했을 때 반복하고 장애물을 극복할 수 있는 충분히 유능한 에이전트를 만듭니다.
광범위한 배포: 이 유능한 에이전트를 실제 세계에 배치해 실제 작업을 수행하게 합니다.
지속 학습 루프: OPSD나 dreaming과 같은 기법을 사용해 실제 세션에서 얻은 경험을 모델의 가중치에 다시 증류합니다.

이 미래에서는 AI 개선의 주요 동력이 사전 출시 훈련에서 광범위한 경제적 배포를 통한 경험 축적으로 이동합니다. 모델은 모든 사용자와의 실시간 상호작용에서 학습함으로써 점점 더 똑똑해집니다.

요약

현재 검증 가능한 보상으로부터의 강화 학습(RLVR)에 대한 AI 훈련 베팅은 샘플 효율성이 낮고, 검증 불가능한 실제 환경에서 지속 학습을 통해 학습할 수 있는 능력이 부족하기 때문에 일반 지능을 달성하기에 충분하지 않습니다.

제목

다음 AI 훈련 패러다임: RLVR을 넘어 지속 학습으로

다음 AI 훈련 패러다임: RLVR을 넘어 지속 학습으로

다음 AI 훈련 패러다임: RLVR을 넘어 지속 학습으로

핵심 베팅: RLVR과 그 한계

"그라인드 가능성" 병목

지속 학습의 필요성

순수 컨텍스트 학습의 실패

샘플 효율성 문제

가중치 업데이트를 위한 제안된 솔루션

정책 내 자기 증류(OPSD)

"Dreaming"(테스트 시점 훈련)

2027‑2028 비전

요약

제목

Sources