OpenAI 연구 전략: 스케일링 법칙, 추론, 그리고 평가 위기

OpenAI 연구 전략: 스케일링 법칙, 추론, 그리고 평가 위기

핵심 논제: 스케일링과 추론

AI 발전은 스케일링 법칙에 의해 구동되는 지수적 궤적을 계속 따라가고 있지만, 최전선은 단순 사전 학습에서 세계 지식 습득과 추론 능력을 결합한 정교한 형태로 이동했습니다. 일부는 사전 학습이 한계에 도달했다고 주장하지만, OpenAI는 더 나은 엔지니어링과 데이터 큐레이션이 지속적으로 새로운 스케일링 경계를 열어 AGI를 향한 목표점을 이동시킨다고 주장합니다.

스케일링 법칙과 "사전 학습은 죽었다"는 서사

Mark Chen은 사전 학습이 죽었다거나 스케일링 법칙이 정체되었다는 생각에 강력히 반대합니다. 그는 대형 언어 모델(LLM) 역사를 살펴보면, 병목 현상이 종종 극복할 수 없다고 여겨졌다가도 연구 통찰이나 엔지니어링 개선을 통해 극복된 사례가 많다고 주장합니다.

  • 지수 성장의 지속성: Chen은 모델 능력의 지수적 성장은 모든 인식된 한계가 더 신중한 데이터 엔지니어링과 스케일링을 통해 과거에 우회된 바 있기 때문에 유지될 것이라고 믿습니다.
  • 엔지니어링의 역할: 경계를 돌파하는 것은 종종 "시스템의 과즙을 짜내는" 과정이며, 이는 세밀한 주의와 더 나은 인프라에 달려 있습니다.

추론에 대한 전략적 베팅 (o1)

추론은 OpenAI의 가장 중요한 연구 베팅 중 하나가 되었으며, o1 모델 출시가 그 예시입니다. 이 변화는 전통적인 "사전 학습 + 사후 학습" 패러다임을 넘어서는 움직임을 의미합니다.

  • 관성 극복: 추론을 구현하려면 Jakub Pachocki와 Ilia Sutskever와 같은 리더들의 강력한 내부 추진력과 확신이 필요했으며, 기존 사전 학습 패러다임이 이미 매우 성공적이었기 때문입니다.
  • 객관적 vs. 주관적 과제: 강화 학습(RL)은 수학·컴퓨터 과학처럼 정답이 이진적인 "차가운 절대 진리" 영역에서 가장 효과적입니다. 반면, 창작 글쓰기와 같이 전문가마다 채점이 일관되지 않는 주관적 분야에서는 RL이 더 어려움을 겪습니다.

"평가 위기"와 벤치마크 최대화

AI 평가에 대한 위기가 커지고 있습니다. SAT와 같은 표준 벤치마크가 포화 상태이거나 유출되어 "벤치맥싱" 현상이 나타나고 있습니다.

  • 벤치맥싱: 특정 벤치마크의 분포에 모델이 과적합하거나 유사한 사례로 학습될 때 발생하며, 실제 일반화 능력을 반영하지 못하는 높은 점수를 얻게 됩니다.
  • 대립적 평가: 이를 방지하기 위해 OpenAI는 평가를 만드는 팀과 모델을 최적화하는 팀을 분리합니다. 평가 팀은 모델이 풀 수 없는 테스트를 만들도록 장려되어, 능력 측정의 정직성을 확보하는 대립적 프로세스를 형성합니다.
  • 외부 파트너십: OpenAI는 내부 편향을 피하기 위해 외부 기관과 협력해 하드 사이언스와 수학 분야의 골드 스탠다드 벤치마크를 제작합니다.

연구 감각과 AI 연구의 미래

"연구 감각"—어떤 방향이 유망한지 직감하는 능력—은 최고의 연구자들을 구별하는 핵심 요소입니다. 일부는 이것이 박사 학위가 필요하다고 생각하지만, Chen은 기존 논문을 철저히 재현함으로써 개발될 수 있다고 제안합니다.

  • "바이브 연구자"의 부상: 분야는 오케스트레이션 쪽으로 이동하고 있습니다. 모델이 구현 및 실행을 담당하게 되면서 인간 연구자의 주요 가치는 아이디어 발상과 고수준 조정으로 이동합니다.
  • 엔드‑투‑엔드 AI 연구: OpenAI의 장기 목표는 모델이 엔드‑투‑엔드 연구를 수행하도록 하는 것으로, 여기에는 자체 "감각"을 개발하고 일반 벤치마크에 대한 새로운 솔루션을 독립적으로 발견하는 능력이 포함됩니다.
  • 실패 다루기: OpenAI의 "알파" 핵심은 고위험 베팅을 하는 것입니다. Chen은 많은 연구자들이 "메가 히트"를 내기 전 일련의 실패를 겪을 수 있지만, 아이디어가 건전하고 야심 차다면 결국 성공할 수 있다고 언급합니다.

기술 구현과 장기 작업

AGI를 달성하려면 모델이 장기적인 현실 세계 과제를 처리해야 하며, 이는 단순히 컨텍스트 윈도우를 늘리는 것 이상을 요구합니다.

  • 톱니형 지능: 모델은 종종 복잡한 과제(예: IMO 수학 문제)에서는 뛰어나지만 인간이 쉽게 수행하는 일상 과제에서는 실패하는 "톱니형" 능력을 보입니다. 이는 주로 현실 세계 컨텍스트가 부족하기 때문입니다.
  • 컨텍스트 관리: 기본적인 장기 컨텍스트 윈도우 외에도 Chen은 "압축"—통찰이나 작업 상태를 압축하는 것—을 장기 학습을 관리하는 중요한 엔지니어링 지름길로 강조합니다. 이는 기본 원시 기능을 극단적으로 비용이 많이 드는 대신 활용할 수 있게 합니다.

Sources