Agent‑S:一個超越人類在 OSWorld 基準表現的跨平台自動化 GUI 代理框架

Agent-S:一個超越人類在 OSWorld 基準表現的跨平台自動化 GUI 代理框架

它解決了什麼問題

Agent‑S 旨在克服打造能像人類般自然且有效與電腦圖形使用者介面(GUI)互動的 AI 代理的困難。它提供了一個跨 Windows、macOS 與 Linux 的自動化電腦使用框架,使代理能透過解析螢幕內容並執行操作,完成複雜任務。

工作原理

系統使用 Agent‑Computer Interface (ACI) 將高層次的代理決策轉換為可執行的指令。通常採用雙模型架構:一個主生成模型(例如 GPT‑5)負責高層次推理,另一個專門的 grounding 模型(例如 UI‑TARS)將這些意圖映射到精確的螢幕座標與操作。此框架亦可擴充本地程式編寫環境,讓代理執行 Python 與 Bash 程式碼,以完成資料處理或系統自動化等較 GUI 互動更有效的任務。

目標對象

本專案適合開發者與研究人員打造自動化 GUI 代理、希望以 AI 取代手動工作流程的自動化工程師,以及對最先進的電腦使用代理(CUA)感興趣的人士。

重點特色

  • 人類水平表現:Agent‑S3 在 OSWorld 基準上已超過人類水平(72.60%)。
  • 跨平台支援:支援 Windows、macOS 與 Linux。
  • 零樣本泛化:在未經特定訓練的 WindowsAgentArena 與 AndroidWorld 等新環境中亦能展現強大功能。
  • 混合互動:結合 GUI 互動與執行本地程式碼的能力,以處理複雜系統任務。

摘要: 一個開源框架,用於構建能在 Windows、macOS 與 Linux 上與電腦互動的自動化 GUI 代理,並在 OSWorld 基準上達到人類水平的表現。

標題: Agent‑S:一個超越人類在 OSWorld 基準表現的跨平台自動化 GUI 代理框架

Sources