UFO

UFO: とは何なのか、どのような問題を解決し、なぜ注目を集めているのか

解決する問題

UFOは、単一または複数のデバイスにわたるユーザーインターフェースの自動化のためのフレームワークです。Windows、Linux、Androidといった異なるオペレーティングシステムやアプリケーションにまたがる、複雑で多段階のワークフローを実行する難しさに取り組み、単なる逐次的なタスク実行を超えた、エージェントの調整された「galaxy」へと進化します。

仕組み

このプロジェクトは、主に2つのコンポーネントで構成されています。

  • UFO³ Galaxy: マルチデバイス・オーケストレーション・フレームワーク。ConstellationAgentを使用して、ユーザーのリクエストをタスクの有向非巡回グラフ(DAG)に分解します。次に、TaskOrchestratorが、プラットフォームやリソースの能力に基づいて、これらのタスクを最も適切なデバイスに割り当て、セキュアなWebSocketベースの**Agent Interaction Protocol (AIP)**を介して非同期に実行します。
  • UFO² Desktop AgentOS: Windows自動化のための特化型エージェント。Windows UIA、Win32、およびWinCOMと深く統合し、ハイブリッドアクション(GUIクリックとAPI呼び出し)を実行します。単独のツールとして、またはGalaxyフレームワーク内のデバイスエージェントとして動作させることができます。

対象ユーザー

  • Developers クロスプラットフォームの自動化ワークフローを構築する開発者。
  • Power users Windows、Linux、およびAndroidデバイスにわたる複雑なタスクを自動化したいパワーユーザー。
  • AI researchers GUIエージェントとマルチエージェント・オーケストレーションに焦点を当てているAI研究者。

ハイライト

  • Cross-Device Orchestration: 異種プラットフォーム(Windows、Linux、Android)にわたるタスクを調整します。
  • Dynamic DAG Planning: タスクを実行可能なグラフに分解し、実行フィードバックに基づいて進化させることができます。
  • Deep Windows Integration: 堅牢なWindows OS制御のために、視覚的検出とUIA検出のハイブリッドを使用します。
  • Efficiency: 推測的なマルチアクション予測により、LLM呼び出しを最大51%削減できます。
  • MCP Integration: デバイスエージェントの迅速なツール拡張のために、Model Context Protocol (MCP) をサポートしています。

Sources