ARC-AGI-3: 지침 없이 벤치마크 해결하기

ARC-AGI-3: 지침 없이 벤치마크 해결하기

ARC-AGI-3의 핵심 과제

ARC-AGI-3는 이전의 정적인 ARC 벤치마크 그리드 퍼즐을 대화형 및 에이전트 중심 환경으로 변환합니다. 이전 모델들과 달리, 모델에게 규칙이나 목표가 주어지지 않습니다. 모델은 가공되지 않은 프레임과 상호작용을 통해 목표와 세계의 메커니즘을 스스로 발견해야 합니다. 주요 어려움은 극단적인 행동 효율성을 유지하면서 탐색(규칙 발견)과 활용(레벨 해결) 사이의 상호작용에 있습니다.

행동 효율성 vs. 무차별 대입(Brute Force)

초기 프리뷰 경연 대회는 무차별 대입 방식—구체적으로 프레임 변화를 일으키는 행동을 찾는 방식—을 사용하여 승리했지만, 전체 ARC-AGI-3 벤치마크는 이러한 접근 방식을 방어하도록 설계되었습니다.

무차별 대입의 실패

  • 행동 공간(Action Space): 행동 공간은 64x64 마우스 클릭 그리드를 포함하여 4,000개 이상의 가능한 행동이 존재하는 거대한 공간으로, 무작위 탐색은 계산적으로 불가능합니다.
  • 효율성 점수: 벤치마크는 인간 기준 행동 대비 AI 행동의 비율을 기반으로 한 점수 시스템을 사용합니다. 에이전트가 인간보다 현저히 효율성이 떨어지면, 레벨을 결국 해결하더라도 점수가 0에 가깝게 떨어집니다.
  • 강화된 환경: 새로운 게임에는 유효한 행동임에도 게임 상태를 변화시키지 않는 경우에도 움직이는 타이머 바가 포함되어 있어, 단순한 "'프레임 변화' 탐지 전략"을 무력화합니다.

LLM과 고차원 추상화의 역할

Tufa Labs는 대규모 언어 모델(LLM)을 직접적인 행동 예측기가 아닌, 특수화된 하네스(harness) 내의 추론 엔진으로 활용합니다.

귀납 및 연역

  • 연역적 방법(Transductive Methods): 입력 프레임을 컨텍스트로 하여 행동을 직접 예측합니다. 이 접근 방식은 일반적으로 일반화에 실패합니다.
  • 귀납적 방법(Inductive Methods): 영어로 된 사고의 사슬(chain-of-thought) 추론을 사용하여 게임 메커니즘에 대한 근거를 생성합니다. 이를 통해 에이전트는 객체와 역학을 식별할 수 있으며, 이는 향후 레벨에 교차 적용될 수 있습니다.

"추상화 산(Abstraction Mountain)"

인간은 깊은 사전 지식(예: "미로" 또는 "플레이어" 인식)을 활용하여 ARC-AGI-3를 해결합니다. LLM은 인터넷에서의 사전 학습을 통해 이러한 개념에 대한 "파편화되고 얽힌 표현"을 보유하고 있습니다. 이러한 표현이 형식적인 기호 논리만큼 깔끔하지는 않지만, 순수 강화 학습(RL) 모델이 처음부터 배워야 하는 추상화 단계를 건너뛸 수 있게 해줍니다.

지식의 지름길로서의 언어

이 벤치마크에서 언어는 지능의 중요한 부트스트랩 역할을 합니다. Tufa Labs는 게임 상태를 언어로 표현하는 것(예: 파란색을 위해 'B'와 같은 문자를 사용)이 모델이 사전 학습된 사전 지식을 활용하도록 돕는 반면, 가공되지 않은 숫자나 단순화된 표현을 사용하는 것은 성능을 크게 저하시킨다는 것을 발견했습니다.

에이전시(Agency)와 계획

ARC-AGI-3는 동적인 환경에서 목표를 획득하고, 계획을 세우고, 이를 실현하는 능력인 "에이전시"를 테스트합니다.

두 가지 계획 유형

  1. 경로 계획(Path Planning): 규칙을 이해한 후, 에이전트는 목표를 향한 경로를 계획해야 합니다. 이는 LLM이 최적의 경로를 찾기 위해 Python 코드를 작성하고 실행하는 방식(예: 너비 우선 탐색 사용)으로 처리됩니다.
  2. 목표 획득(Goal Acquisition): 에이전트는 규칙을 어떻게 알아낼지 스스로 결정해야 합니다. 이는 탐색과 활용의 균형을 맞추는 과정이며, Tufa 팀은 이를 트랜스포머가 가설을 반복하며 계획하는 척하는 "시뮬레이션된 계획"이라고 설명합니다.

목표 루프와 실패 모드

에이전트들은 종종 "잘못된 목표 루프"에 빠지곤 합니다. 즉, 거짓 가설(예: 에너지 바를 0으로 만드는 것이 목표라고 믿는 것)에 고착되어, 승리를 이끌어내지 못하더라도 그 논리에서 벗어나지 못하는 현상입니다.

솔루션 엔지니어링: 하네스 및 요구사항

프론티어 모델들이 가이드 없이 낮은 점수(1% 미만)를 기록하기 때문에, Tufa Labs는 일반적인 사고 패턴을 제공하기 위해 "하네스"를 사용합니다.

요구사항 기반 엔지니어링

코딩 에이전트가 작성하는 경우가 많은 코드베이스의 복잡성이 증가함에 따라, 팀은 요구사항 기반 엔지니어링을를 채택합니다. 그들은 요구사항과 테스트를 공식적으로 작성하고 검토한 후, 코딩 에이전트에게 구현을 넘깁니다. 이는 인간 개발자가 자신의 시스템이 어떻게 작동하는지 파악하지 못하게 되는 "이해의 부채"를 방지합니다.

보상 형성(Reward Shaping)

에이전트를 개선하기 위해 팀은 다음을 기반으로 보상성을 형성합니다:

  • 레벨 전환.
  • ARC-AGI 점수(효율성).
  • 생성된 코드가 성공적으로 실행되는지 여부.
  • 토큰 사용을 최적화하기 위한 추론 단계의 길이.

AGI와 "쓴맛의 교훈(Bitter Lesson)"

Tufa Labs 팀은 "쓴맛의 교훈(Bitter Lesson)"(일반적인 방법론인 스케일링과 컴퓨팅 파워가 수작업으로 만든 휴리스틱을 항상 이긴다는 생각)과 특수화된 하네스의 필요성 사이의 긴점을 논의합니다.

  • 베팅(The Bet): 팀은 ARC-AGI-3의 승리하는 솔루션이 순수하게 "쓴맛의 교훈" 방식의 솔루션이 아닐 것이라고 믿습니다. 그들은 현재 모델의 상태가 벤치마크의 추상화 및 효율성 요구사항을 핸들링할하기 위해 기본적인 설계와 구조적 가이드가 필요하다고 주장합니다.
  • AGI 질문: ARC-AGI-3를 해결하는 것이 AGI를 증명하는 것은 아니지만, 해결하지 못하는 것은 시스템이 아직 AGI가 아님을 시사합니다. 팀은 새로운 게임에서 요구되는 내재적인 탐색 과정 때문에 인간조차 100% 점수를 획득하는 데 어려움을 겪는다는 점을 언급합니다.

Sources