UFO: 什么是它,它解决了什么问题以及为什么它正受到关注

UFO: 什么是它,它解决了什么问题以及为什么它正受到关注

它解决了什么问题

UFO 是一个用于在单个或多个设备上实现用户界面自动化的框架。它解决了跨不同操作系统(Windows, Linux, Android)和应用程序执行复杂、多步骤工作流的难题,从简单的顺序任务执行转向协调的代理“星系”(galaxy)模式。

它是如何工作的

该项目由两个主要组件组成:

  • UFO³ Galaxy: 一个多设备编排框架。它使用 ConstellationAgent 将用户请求分解为任务的有向无环图 (DAG)。然后,TaskOrchestrator 根据平台和资源能力将这些任务分配给最合适的设备,并通过基于安全 WebSocket 的 Agent Interaction Protocol (AIP) 异步执行它们。
  • UFO² Desktop AgentOS: 一个专门用于 Windows 自动化的代理。它与 Windows UIA, Win32, 和 WinCOM 深度集成,以执行混合操作(GUI 点击和 API 调用)。它可以作为一个独立的工具或作为 Galaxy 框架内的设备代理运行。

目标用户

  • 开发者:构建跨平台自动化工作流。
  • 高级用户:寻求在 Windows, Linux, 和 Android 设备上实现复杂任务自动化的用户。
  • AI 研究员:专注于 GUI 代理和多代理编排的研究人员。

亮点

  • 跨设备编排:协调异构平台(Windows, Linux, Android)上的任务。
  • 动态 DAG 规划:将任务分解为可执行图,这些图可以根据执行反馈进行演变。
  • 深度 Windows 集成:结合使用视觉和 UIA 检测,实现稳健的 Windows OS 控制。
  • 效率:具有推测性多动作预测功能,可将 LLM 调用减少高达 51%。
  • MCP 集成:支持 Model Context Protocol (MCP),以便快速增强设备代理的工具能力。

Sources