Agent-S:一个超越人类在 OSWorld 上表现的跨平台自主 GUI 代理框架

Agent-S:一个超越人类在 OSWorld 上表现的跨平台自主 GUI 代理框架

它解决了什么问题

Agent S 旨在克服创建能够像人类一样自然且高效地与计算机图形用户界面(GUI)交互的 AI 代理的难题。它提供了一个跨 Windows、macOS 和 Linux 的自主计算机使用框架,使代理能够通过解释屏幕内容并执行操作来完成复杂任务。

工作原理

系统使用 Agent-Computer Interface(ACI) 将高级代理决策转换为可执行命令。它通常采用双模型架构:一个主生成模型(如 GPT-5)负责高级推理,另一个专用的 grounding 模型(如 UI-TARS)将这些意图映射到精确的屏幕坐标和操作。该框架还可以扩展本地编码环境,允许代理执行 Python 和 Bash 代码,以完成数据处理或系统自动化等比 GUI 交互更高效的任务。

适用人群

本项目面向构建自主 GUI 代理的开发者和研究者、希望用 AI 替代手动工作流的自动化工程师,以及对最前沿的计算机使用代理(CUA)感兴趣的人员。

亮点

  • 人类水平表现:Agent S3 在 OSWorld 基准上已超越人类水平(72.60%)。
  • 跨平台支持:兼容 Windows、macOS 和 Linux。
  • 零样本泛化:在未进行特定训练的情况下,能够在 WindowsAgentArena、AndroidWorld 等新环境中表现出色。
  • 混合交互:结合 GUI 交互与执行本地代码的能力,以完成复杂的系统任务。

Sources