Agent-S：一個超越人類在 OSWorld 基準表現的跨平台自動化 GUI 代理框架

它解決了什麼問題

Agent‑S 旨在克服打造能像人類般自然且有效與電腦圖形使用者介面（GUI）互動的 AI 代理的困難。它提供了一個跨 Windows、macOS 與 Linux 的自動化電腦使用框架，使代理能透過解析螢幕內容並執行操作，完成複雜任務。

工作原理

系統使用 Agent‑Computer Interface (ACI) 將高層次的代理決策轉換為可執行的指令。通常採用雙模型架構：一個主生成模型（例如 GPT‑5）負責高層次推理，另一個專門的 grounding 模型（例如 UI‑TARS）將這些意圖映射到精確的螢幕座標與操作。此框架亦可擴充本地程式編寫環境，讓代理執行 Python 與 Bash 程式碼，以完成資料處理或系統自動化等較 GUI 互動更有效的任務。

目標對象

本專案適合開發者與研究人員打造自動化 GUI 代理、希望以 AI 取代手動工作流程的自動化工程師，以及對最先進的電腦使用代理（CUA）感興趣的人士。

重點特色

人類水平表現：Agent‑S3 在 OSWorld 基準上已超過人類水平（72.60%）。
跨平台支援：支援 Windows、macOS 與 Linux。
零樣本泛化：在未經特定訓練的 WindowsAgentArena 與 AndroidWorld 等新環境中亦能展現強大功能。
混合互動：結合 GUI 互動與執行本地程式碼的能力，以處理複雜系統任務。

摘要：一個開源框架，用於構建能在 Windows、macOS 與 Linux 上與電腦互動的自動化 GUI 代理，並在 OSWorld 基準上達到人類水平的表現。

標題： Agent‑S：一個超越人類在 OSWorld 基準表現的跨平台自動化 GUI 代理框架

Agent‑S：一個超越人類在 OSWorld 基準表現的跨平台自動化 GUI 代理框架

Agent-S：一個超越人類在 OSWorld 基準表現的跨平台自動化 GUI 代理框架

它解決了什麼問題

工作原理

目標對象

重點特色

Sources