ARC-AGI-3: 指示なしでベンチマークを解く

ARC-AGI-3 の核心的課題

ARC-AGI-3 は、従来の ARC ベンチマークの静的なグリッドパズルを、インタラクティブでエージェント的な環境へと変換します。前例とは異なり、モデルにはルールや目標が与えられず、生のフレームと相互作用を通じて目的と世界のメカニクスを発見しなければなりません。主な難しさは、探索（ルールの発見）と活用（レベルの解決）を組み合わせつつ、極めて高い行動効率を維持することにあります。

行動効率 vs. 暴力的探索

初期のプレビューコンペティションは、フレーム変化をもたらす行動を探索するという暴力的手法で勝利しましたが、完全な ARC-AGI-3 ベンチマークはそのようなアプローチに耐えるよう設計されています。

暴力的探索の失敗

Action Space: アクション空間は非常に大きく、64×64 のマウスクリックグリッドを含む 4,000 以上の可能なアクションがあります。そのためランダム探索は計算上実行不可能です。
Efficiency Scoring: ベンチマークは人間のベースライン行動数に対する AI の行動数の比率に基づくスコアリングを使用します。エージェントが人間より著しく非効率的である場合、最終的にレベルを解いてもスコアはゼロに近づきます。
Hardened Environments: 新しいゲームには、アクションが有効でもゲーム状態が変化しない場合にタイマーバーが進む仕組みが追加され、単純な「フレーム変化」検出戦略が無効化されます。

LLM と高レベル抽象化の役割

Tufa Labs は、大規模言語モデル（LLM）を直接的な行動予測器としてではなく、特化したハーネス内の推論エンジンとして活用しています。

帰納と転移

Transductive Methods: 入力フレームをコンテキストとして直接アクションを予測します。このアプローチは一般化が難しいことが多いです。
Inductive Methods: 英語での chain‑of‑thought 推論を用いてゲームのメカニクスに対する根拠を作成します。これによりエージェントはオブジェクトやダイナミクスを特定でき、将来のレベルに横展開できます。

「抽象化の山」

人間は深い事前知識（例: 「迷路」や「プレイヤー」）を活用して ARC-AGI-3 を解きます。LLM はインターネット上の事前学習から得た「断片的で絡み合った表現」を持ち、形式的なシンボリック論理ほどクリーンではありませんが、純粋な強化学習（RL）モデルがゼロから学ばなければならない抽象化の階層を飛び越えることができます。

言語はショートカット

言語はこのベンチマークにおけるインテリジェンスの重要なブートストラップです。Tufa Labs は、ゲーム状態を言語で表現（例: 青を 'B' と表す）することで、モデルが事前学習の事前知識に依存しやすくなり、数値や簡略化された表現だけを使用すると性能が大幅に低下することを確認しました。

エージェンシーと計画

ARC-AGI-3 は「エージェンシー」―目標を獲得し、計画し、動的環境で実現する能力―をテストします。

2 種類の計画

Path Planning: ルールが理解できたら、エージェントは目標へのパスを計画しなければなりません。これは LLM が Python コード（例: 幅優先探索）を書き実行して最適経路を見つけることで実現されます。
Goal Acquisition: エージェントは ルールを見つける方法 を自ら考え出さなければなりません。これは探索と活用のバランスを取るプロセスで、Tufa チームはこれを「シミュレート計画」と呼び、トランスフォーマーが仮説を反復しながら計画しているふりをすると説明しています。

目標ループと失敗モード

エージェントはしばしば「誤目標ループ」に陥ります。たとえば、エネルギーバーをゼロにすることが目標だと誤って仮定し、その論理から抜け出せず、勝利に至らないケースです。

解決策のエンジニアリング：ハーネスと要件

フロンティアモデルはガイダンスなしではスコアが 1% 未満になるため、Tufa Labs は一般的な思考パターンを提供する「ハーネス」を使用します。

要件ベースのエンジニアリング

コードベースの複雑化が進む（多くはコーディングエージェントが生成）中で、チームは要件ベースのエンジニアリングを採用しています。要件とテストを正式に記述・レビューし、実装はコーディングエージェントに委ねます。これにより、人間開発者が自分たちのシステムの動作を見失う「理解負債」を防ぎます。

報酬整形

エージェントを改善するために、チームは以下に基づく報酬整形を行います。

レベル遷移
ARC-AGI スコア（効率）
生成コードの実行成功可否
トークン使用量最適化のための推論ステップ長さ

AGI と「苦い教訓」

Tufa チームは、一般的手法（スケーリングや計算リソースの増大）が手作りヒューリスティックを常に上回るという「苦い教訓」と、特化ハーネスの必要性との間にある緊張を論じます。

The Bet: チームは ARC-AGI-3 の勝利解は純粋に「苦い教訓」だけに依存しないと考えています。現在のモデルは抽象化と効率要件を処理するために、基本的な設計と構造的ガイダンスが必要だと主張します。
The AGI Question: ARC-AGI-3 を解くことは AGI を証明するものではありませんが、失敗すればシステムはまだ AGI ではないことを示唆します。人間ですら新規ゲームの探索が必要なため 100% スコアを出すのは難しいと指摘しています。

要約: Tufa Labs は ARC-AGI-3 の課題を論じ、暴力的探索を超えて行動効率と目標獲得を高レベル抽象化で達成する必要があることを強調しています。

タイトル: ARC-AGI-3: 指示なしでベンチマークを解く

ARC-AGI-3: 指示なしでベンチマークを解く

ARC-AGI-3: 指示なしでベンチマークを解く

ARC-AGI-3 の核心的課題

行動効率 vs. 暴力的探索

暴力的探索の失敗

LLM と高レベル抽象化の役割

帰納と転移

「抽象化の山」

言語はショートカット

エージェンシーと計画

2 種類の計画

目標ループと失敗モード

解決策のエンジニアリング：ハーネスと要件

要件ベースのエンジニアリング

報酬整形

AGI と「苦い教訓」

Sources