UFO: 什么是它,它解决了什么问题以及为什么它正受到关注
UFO: 什么是它,它解决了什么问题以及为什么它正受到关注
它解决了什么问题
UFO 是一个用于在单个或多个设备上实现用户界面自动化的框架。它解决了跨不同操作系统(Windows, Linux, Android)和应用程序执行复杂、多步骤工作流的难题,从简单的顺序任务执行转向协调的代理“星系”(galaxy)模式。
它是如何工作的
该项目由两个主要组件组成:
- UFO³ Galaxy: 一个多设备编排框架。它使用 ConstellationAgent 将用户请求分解为任务的有向无环图 (DAG)。然后,TaskOrchestrator 根据平台和资源能力将这些任务分配给最合适的设备,并通过基于安全 WebSocket 的 Agent Interaction Protocol (AIP) 异步执行它们。
- UFO² Desktop AgentOS: 一个专门用于 Windows 自动化的代理。它与 Windows UIA, Win32, 和 WinCOM 深度集成,以执行混合操作(GUI 点击和 API 调用)。它可以作为一个独立的工具或作为 Galaxy 框架内的设备代理运行。
目标用户
- 开发者:构建跨平台自动化工作流。
- 高级用户:寻求在 Windows, Linux, 和 Android 设备上实现复杂任务自动化的用户。
- AI 研究员:专注于 GUI 代理和多代理编排的研究人员。
亮点
- 跨设备编排:协调异构平台(Windows, Linux, Android)上的任务。
- 动态 DAG 规划:将任务分解为可执行图,这些图可以根据执行反馈进行演变。
- 深度 Windows 集成:结合使用视觉和 UIA 检测,实现稳健的 Windows OS 控制。
- 效率:具有推测性多动作预测功能,可将 LLM 调用减少高达 51%。
- MCP 集成:支持 Model Context Protocol (MCP),以便快速增强设备代理的工具能力。
Sources
- undefinedmicrosoft/UFO