UFO
UFO: とは何なのか、どのような問題を解決し、なぜ注目を集めているのか
解決する問題
UFOは、単一または複数のデバイスにわたるユーザーインターフェースの自動化のためのフレームワークです。Windows、Linux、Androidといった異なるオペレーティングシステムやアプリケーションにまたがる、複雑で多段階のワークフローを実行する難しさに取り組み、単なる逐次的なタスク実行を超えた、エージェントの調整された「galaxy」へと進化します。
仕組み
このプロジェクトは、主に2つのコンポーネントで構成されています。
- UFO³ Galaxy: マルチデバイス・オーケストレーション・フレームワーク。ConstellationAgentを使用して、ユーザーのリクエストをタスクの有向非巡回グラフ(DAG)に分解します。次に、TaskOrchestratorが、プラットフォームやリソースの能力に基づいて、これらのタスクを最も適切なデバイスに割り当て、セキュアなWebSocketベースの**Agent Interaction Protocol (AIP)**を介して非同期に実行します。
- UFO² Desktop AgentOS: Windows自動化のための特化型エージェント。Windows UIA、Win32、およびWinCOMと深く統合し、ハイブリッドアクション(GUIクリックとAPI呼び出し)を実行します。単独のツールとして、またはGalaxyフレームワーク内のデバイスエージェントとして動作させることができます。
対象ユーザー
- Developers クロスプラットフォームの自動化ワークフローを構築する開発者。
- Power users Windows、Linux、およびAndroidデバイスにわたる複雑なタスクを自動化したいパワーユーザー。
- AI researchers GUIエージェントとマルチエージェント・オーケストレーションに焦点を当てているAI研究者。
ハイライト
- Cross-Device Orchestration: 異種プラットフォーム(Windows、Linux、Android)にわたるタスクを調整します。
- Dynamic DAG Planning: タスクを実行可能なグラフに分解し、実行フィードバックに基づいて進化させることができます。
- Deep Windows Integration: 堅牢なWindows OS制御のために、視覚的検出とUIA検出のハイブリッドを使用します。
- Efficiency: 推測的なマルチアクション予測により、LLM呼び出しを最大51%削減できます。
- MCP Integration: デバイスエージェントの迅速なツール拡張のために、Model Context Protocol (MCP) をサポートしています。
Sources
- undefinedmicrosoft/UFO