Agent‑S:一個超越人類在 OSWorld 基準表現的跨平台自動化 GUI 代理框架
Agent-S:一個超越人類在 OSWorld 基準表現的跨平台自動化 GUI 代理框架
它解決了什麼問題
Agent‑S 旨在克服打造能像人類般自然且有效與電腦圖形使用者介面(GUI)互動的 AI 代理的困難。它提供了一個跨 Windows、macOS 與 Linux 的自動化電腦使用框架,使代理能透過解析螢幕內容並執行操作,完成複雜任務。
工作原理
系統使用 Agent‑Computer Interface (ACI) 將高層次的代理決策轉換為可執行的指令。通常採用雙模型架構:一個主生成模型(例如 GPT‑5)負責高層次推理,另一個專門的 grounding 模型(例如 UI‑TARS)將這些意圖映射到精確的螢幕座標與操作。此框架亦可擴充本地程式編寫環境,讓代理執行 Python 與 Bash 程式碼,以完成資料處理或系統自動化等較 GUI 互動更有效的任務。
目標對象
本專案適合開發者與研究人員打造自動化 GUI 代理、希望以 AI 取代手動工作流程的自動化工程師,以及對最先進的電腦使用代理(CUA)感興趣的人士。
重點特色
- 人類水平表現:Agent‑S3 在 OSWorld 基準上已超過人類水平(72.60%)。
- 跨平台支援:支援 Windows、macOS 與 Linux。
- 零樣本泛化:在未經特定訓練的 WindowsAgentArena 與 AndroidWorld 等新環境中亦能展現強大功能。
- 混合互動:結合 GUI 互動與執行本地程式碼的能力,以處理複雜系統任務。
摘要: 一個開源框架,用於構建能在 Windows、macOS 與 Linux 上與電腦互動的自動化 GUI 代理,並在 OSWorld 基準上達到人類水平的表現。
標題: Agent‑S:一個超越人類在 OSWorld 基準表現的跨平台自動化 GUI 代理框架
Sources
- undefinedsimular-ai/Agent-S