UFO

UFO: 它是什麼、解決了什麼問題以及為什麼它正受到關注

解決了什麼問題

UFO 是一個用於在單個或多個設備上自動化使用者介面的框架。它解決了執行跨不同作業系統(Windows、Linux、Android)和應用程式的複雜、多步驟工作流程的困難,從簡單的順序任務執行轉向協調的「星系」(galaxy)代理程式。

如何運作

該專案由兩個主要組件組成:

  • UFO³ Galaxy: 一個多設備編排框架。它使用 ConstellationAgent 將使用者請求分解為任務的有向無環圖(DAG)。接著,TaskOrchestrator 會根據平台和資源能力將這些任務分配給最合適的設備,並透過基於安全 WebSocket 的 Agent Interaction Protocol (AIP) 非同步地執行它們。
  • UFO² Desktop AgentOS: 一個專用於 Windows 自動化的代理程式。它與 Windows UIA、Win32 和 WinCOM 深度整合,以執行混合動作(GUI 點擊和 API 呼叫)。它可以作為獨立工具或作為 Galaxy 框架內的設備代理程式運作。

對象是誰

  • 開發者正在構建跨平台自動化工作流程。
  • 進階使用者尋求在 Windows、Linux 和 Android 設備上自動化複雜任務。
  • AI 研究人員專注於 GUI 代理程式和多代理程式編排。

重點摘要

  • 跨設備編排: 協調跨異質平台(Windows、Linux、Android)的任務。
  • 動態 DAG 規劃: 將任務分解為可執行的圖形,這些圖形可以根據執行回饋進行演進。
  • 深度 Windows 整合: 使用視覺與 UIA 檢測的混合模式,以實現穩健的 Windows OS 控制。
  • 效率: 具備推測性多動作預測功能,可減少高達 51% 的 LLM 呼叫。
  • MCP 整合: 支援 Model Context Protocol (MCP) 以實現設備代理程式的快速工具增強。

Sources