ARC-AGI-3: 在没有任何指令的情况下解决基准测试

ARC-AGI-3 的核心挑战

ARC-AGI-3 将之前 ARC 基准测试中的静态网格谜题转变为一个交互式且具有智能体属性的环境。与之前的版本不同，模型不会被给予一组规则或目标；它必须通过原始帧和交互来发现目标和世界的运行机制。主要的困难在于探索（发现规则）与利用（解决关卡）之间的相互作用，同时还要保持极高的动作效率。

动作效率 vs. 暴力破解

虽然早期的预览竞赛是通过暴力破解方法获胜的——具体来说是寻找会导致帧变化的动作——但完整的 ARC-AGI-3 基准测试旨在抵御此类方法。

暴力破解的失败

动作空间： 动作空间非常庞大，拥有超过 4,000 种可能的动作（包括一个 64x64 的鼠标点击网格），这使得随机搜索在计算上是不可行的。
效率评分： 该基准测试使用一种基于人类基准动作与 AI 动作比例的评分系统。如果智能体的效率显著低于人类，即使它最终解决了关卡，其得分也会趋向于零。
强化环境： 新的游戏包含计时条，即使动作有效但没有改变游戏状态时，计时条也会移动，从而使简单的“帧变化”检测策略失效。

LLM 与高层抽象的作用

Tufa Labs 利用大语言模型 (LLMs) 不是作为直接的动作预测器，而是作为专门框架内的推理引擎。

归纳与转导

转导方法 (Transductive Methods)： 直接从输入帧作为上下文来预测动作。这种方法通常无法很好地泛化。
归纳方法 (Inductive Methods)： 使用英语进行思维链推理，为游戏的机制创建逻辑依据。这使得智能体能够识别物体和动态，然后将其跨应用到未来的关卡中。

“抽象之山”

人类通过利用深层的先验知识来解决 ARC-AGI-3（例如，识别“迷宫”或“玩家”）。LLMs 从互联网预训练中获得了这些概念的“破碎且纠缠的表示”。虽然这些表示不像正式的符号逻辑那样清晰，但它们允许 LLMs 跳过纯强化学习 (RL) 模型必须从头开始学习的抽象层级。

语言作为捷径

语言在此基准测试中充当了智能提升的关键引导。Tufa Labs 发现，用语言表示游戏状态（例如，使用字符 'B' 代表蓝色）有助于模型利用其预训练先验，而使用原始数字或精简的表示法会显著降低性能。

智能体属性与规划

ARC-AGI-3 测试的是“智能体属性 (Agency)”，定义为在动态环境中获取目标、进行规划并实现它们的能力。

两种规划类型

路径规划： 一旦理解了规则，智能体必须规划一条通往目标的路径。这部分由 LLM 编写并执行 Python 代码（例如，使用广度优先搜索）来寻找最优路径。
目标获取： 智能体必须弄清楚如何弄清楚规则。这涉及平衡探索与利用，Tufa 团队将其描述为“模拟规划”，即 Transformer 模拟通过迭代假设来进行规划。

目标循环与失败模式

智能体经常陷入“错误目标循环”，即它们锁定在一个错误的假设上（例如，认为目标是减少能量条到零），并且即使在无法产生胜利的情况下也无法逃脱该逻辑。

工程实现方案：框架与要求

由于前沿模型在没有引导的情况下得分很低（低于 1%），Tufa Labs 使用一个“框架 (harness)”来提供通用的思维模式。

基于需求的工程化

为了管理日益增加的代码库复杂度——这些代码通常由编程智能体编写——团队采用了基于需求的工程化方法。他们正式地编写并审查需求和测试，然后将它们交给编程智能体进行实现。这可以防止“理解债务”，即人类开发人员失去对自身系统功能的掌控。

奖励塑造 (Reward Shaping)

为了改进智能体，团队使用了基于以下因素的奖励塑造：

关卡转换。
ARC-AGI 分数（效率）。
生成的代码是否执行成功。
为了优化 Token 使用量而进行的推理步骤长度优化。

AGI 与“惨痛的教训”

Tufa 团队讨论了“惨痛的教训 (Bitter Lesson)”（即认为缩放和计算量等通用方法总是胜过手工设计的启发式方法）与对专门框架的需求之间的张力。

赌注： 团队认为 ARC-AGI-3 的获胜方案不会是一个纯粹的“惨痛教训式”的方案。他们认为当前模型的状态需要一定程度的基础设计和结构化引导，以处理基准测试的抽象和效率要求。 ook: ARC-AGI-3: 在没有任何指令的情况下解决基准测试

AGI 问题

解决 ARC-AGI-3 并不证明 AGI，但失败则表明一个系统尚未达到 AGI。团队指出，即使是人类，由于新游戏中固有的探索需求，也很难获得 100% 的分数。

AGI 问题： 解决 ARC-AGI-3 并不证明 AGI，但失败则表明一个系统尚未达到 AGI。团队指出，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，即使是人类，是人类，是人类，是人类，是人类，是人类，是人类，是人类，是人类，是人类，是人类，是人类，是人类，是人类，是人类，是人类，是
AGI 问题： 预解决 ARC-AGI-n,
AGI 问题： 解决 ARC-AGI-3 并不证明 AGI，但失败则表明一个系统尚未达到 AGI。团队指出，即使是人类，由于新游戏中固有的探索需求，也很难获得 100% 的分数。

ARC-AGI-3: 在没有任何指令的情况下解决基准测试

ARC-AGI-3: 在没有任何指令的情况下解决基准测试

ARC-AGI-3 的核心挑战

动作效率 vs. 暴力破解

暴力破解的失败

LLM 与高层抽象的作用

归纳与转导

“抽象之山”

语言作为捷径

智能体属性与规划

两种规划类型

目标循环与失败模式

工程实现方案：框架与要求

基于需求的工程化

奖励塑造 (Reward Shaping)

AGI 与“惨痛的教训”

AGI 问题

Sources