Agent-S：一个超越人类在 OSWorld 上表现的跨平台自主 GUI 代理框架

它解决了什么问题

Agent S 旨在克服创建能够像人类一样自然且高效地与计算机图形用户界面（GUI）交互的 AI 代理的难题。它提供了一个跨 Windows、macOS 和 Linux 的自主计算机使用框架，使代理能够通过解释屏幕内容并执行操作来完成复杂任务。

工作原理

系统使用 Agent-Computer Interface（ACI） 将高级代理决策转换为可执行命令。它通常采用双模型架构：一个主生成模型（如 GPT-5）负责高级推理，另一个专用的 grounding 模型（如 UI-TARS）将这些意图映射到精确的屏幕坐标和操作。该框架还可以扩展本地编码环境，允许代理执行 Python 和 Bash 代码，以完成数据处理或系统自动化等比 GUI 交互更高效的任务。

适用人群

本项目面向构建自主 GUI 代理的开发者和研究者、希望用 AI 替代手动工作流的自动化工程师，以及对最前沿的计算机使用代理（CUA）感兴趣的人员。

亮点

人类水平表现：Agent S3 在 OSWorld 基准上已超越人类水平（72.60%）。
跨平台支持：兼容 Windows、macOS 和 Linux。
零样本泛化：在未进行特定训练的情况下，能够在 WindowsAgentArena、AndroidWorld 等新环境中表现出色。
混合交互：结合 GUI 交互与执行本地代码的能力，以完成复杂的系统任务。

Agent-S：一个超越人类在 OSWorld 上表现的跨平台自主 GUI 代理框架

Agent-S：一个超越人类在 OSWorld 上表现的跨平台自主 GUI 代理框架

它解决了什么问题

工作原理

适用人群

亮点

Sources