ARC-AGI-3: 在沒有指令的情況下解決基準測試

ARC-AGI-3: 在沒有指令的情況下解決基準測試

ARC-AGI-3 的核心挑戰

ARC-AGI-3 將先前 ARC 基準測試中靜態的網格謎題轉化為一個互動式且具備代理能力的環境。與其前身不同,模型並未被給予一組規則或目標;它必須透過原始影格與互動來發現目標與世界的運作機制。主要的困難在於探索(發現規則)與利用(解決關卡)之間的相互作用,同時還必須保持極高的動作效率。

動作效率 vs. 暴力破解

雖然早期的預覽競賽是使用暴力破解法獲勝的——特別是搜尋會導致影格變化的動作——但完整的 ARC-AGI-3 基準測試旨在抵禦這類方法。

暴力破解的失敗

  • 動作空間: 動作空間非常龐大,擁有超過 4,000 種可能的動作(包括一個 64x64 的滑鼠點擊網格),使得隨機搜尋在計算上變得不可行。
  • 效率評分: 基準測試使用一種基於人類基準動作與 AI 動作比例的評分系統。如果代理人的效率顯著低於人類,即使最終解決了關卡,其分數也會趨近於零。
  • 強化後的環境: 新的遊戲包含計時條,即使動作有效但未改變遊戲狀態時,計時條也會移動,從而中和了簡單的「影格變化」偵測策略。

大型語言模型 (LLM) 與高階抽象的角色

Tufa Labs 利用大型語言模型 (LLMs) 並非作為直接的動作預測器,而是作為專用框架 (harness) 中的推理引擎。

歸納與轉導

  • 轉導式方法 (Transductive Methods): 直接從輸入影格作為上下文來預測動作。這種方法通常無法很好地泛化。
  • 歸納式方法 (Inductive Methods): 使用英文進行思維鏈 (chain-of-thought) 推理,為遊戲機制建立理據。這使得代理人能夠識別物件與動態,進而將其跨關卡應用於未來的關卡。

「抽象之山」

人類解決 ARC-AGI-3 是透過利用深層的先驗知識 (e.g., recognizing a "maze" or a "player")。LLMs 擁有來自於網際網路預訓練的這些概念的「破碎且糾纏的表示法」。雖然這些表示法不如正式的符號邏輯那樣清晰,但它們允許 LLMs 跳過純強化學習 (RL) 模型必須從頭開始學習的抽象層級。

語言作為捷徑

語言在此基準測試中扮演了智能啟動 (bootstrap) 的關鍵角色。Tufa Labs 發現,將遊戲狀態表示為語言(例如,使用字元如 'B' 代表藍色)有助於模型依賴其預訓練的先驗知識,而使用原始數字或簡化後的表示法則會顯著降低性能。

代理能力與規劃

ARC-AGI-3 測試的是「代理能力 (agency)」,定義為在動態環境中獲取目標、規劃並實現目標的能力。

兩種規劃類型

  1. 路徑規劃: 一旦理解了規則,代理人必須規劃一條通往目標的路徑。這部分由 LLM 撰寫並執行 Python 代碼(例如,使用 breadth-first search)來尋找最佳路徑。
  2. 目標獲取: 代理人必須弄清楚「如何」弄清楚規則。這涉及平衡探索與利用,Tufa 團隊將此過程描述為「模擬規劃」,即 Transformer 透過迭代假設來模擬規劃。

目標迴圈與失敗模式

代理人經常陷入「錯誤目標迴圈」,即他們鎖定了一個錯誤的假設(例如,認為目標是將能量條減少到零),並且無法逃脫該邏輯,即使這無法產生勝利。

工程化解決方案:框架與需求

由於前沿模型在沒有引導的情況下得分很低(低於 1%),Tufa Labs 使用「框架 (harness)」來提供通用的思考模式。

基於需求的工程化

為了管理日益增加的代碼庫複雜度——這些代碼通常是由編碼代理人撰寫的——團隊採用了基於需求的工程化。他們正式地撰寫並審查需求與測試,然後將其交給編碼代理人進行實作。這可以防止「理解債 (understanding debt)」,即人類開發者失去對自身系統運作方式的掌控。

獎勵塑形 (Reward Shaping)

為了改進代理人,團隊使用了基於以下因素的獎勵塑形:

  • 關卡轉換。
  • ARC-AGI 分數(效率)。
  • 生成的代碼是否執行成功。
  • 推理步驟的長度,以優化 Token 使用量。

AGI 與「慘痛的教訓」

Tufa Labs 團隊討論了「慘痛的教訓 (Bitter Lesson)」與需要專用框架之間的緊張關係。

  • 這場賭注: 團隊相信 ARC-AGI-3 的獲勝解決方案 不會 是純粹的「慘痛教訓式」的解決方案。他們認為,目前的模型狀態需要一定程度的基礎設計與結構化引導,以處理基準測試中的抽象與效率要求。
  • AGI 問題: 解決 ARC-AGI-3 並不代表證明了 AGI,但失敗則暗示該系統尚未達到 AGI。團隊指出,甚至人類在面對新穎的遊戲時,也會因為固有的探索需求而難以獲得 100% 的分數。

Sources