UFO
UFO: 它是什麼、解決了什麼問題以及為什麼它正受到關注
解決了什麼問題
UFO 是一個用於在單個或多個設備上自動化使用者介面的框架。它解決了執行跨不同作業系統(Windows、Linux、Android)和應用程式的複雜、多步驟工作流程的困難,從簡單的順序任務執行轉向協調的「星系」(galaxy)代理程式。
如何運作
該專案由兩個主要組件組成:
- UFO³ Galaxy: 一個多設備編排框架。它使用 ConstellationAgent 將使用者請求分解為任務的有向無環圖(DAG)。接著,TaskOrchestrator 會根據平台和資源能力將這些任務分配給最合適的設備,並透過基於安全 WebSocket 的 Agent Interaction Protocol (AIP) 非同步地執行它們。
- UFO² Desktop AgentOS: 一個專用於 Windows 自動化的代理程式。它與 Windows UIA、Win32 和 WinCOM 深度整合,以執行混合動作(GUI 點擊和 API 呼叫)。它可以作為獨立工具或作為 Galaxy 框架內的設備代理程式運作。
對象是誰
- 開發者正在構建跨平台自動化工作流程。
- 進階使用者尋求在 Windows、Linux 和 Android 設備上自動化複雜任務。
- AI 研究人員專注於 GUI 代理程式和多代理程式編排。
重點摘要
- 跨設備編排: 協調跨異質平台(Windows、Linux、Android)的任務。
- 動態 DAG 規劃: 將任務分解為可執行的圖形,這些圖形可以根據執行回饋進行演進。
- 深度 Windows 整合: 使用視覺與 UIA 檢測的混合模式,以實現穩健的 Windows OS 控制。
- 效率: 具備推測性多動作預測功能,可減少高達 51% 的 LLM 呼叫。
- MCP 整合: 支援 Model Context Protocol (MCP) 以實現設備代理程式的快速工具增強。
Sources
- undefinedmicrosoft/UFO