Agent-S: クロスプラットフォームのコンピュータ使用において OSWorld で人間のパフォーマンスを超える自律 GUI エージェントフレームワーク

解決する課題

Agent S は、コンピュータのグラフィカルユーザーインターフェース（GUI）と人間と同様に自然かつ効果的に対話できる AI エージェントの作成の難しさを克服するために設計されました。Windows、macOS、Linux にまたがる自律的なコンピュータ使用のためのフレームワークを提供し、画面内容を解釈しアクションを実行することで、エージェントが複雑なタスクを遂行できるようにします。

仕組み

システムは Agent-Computer Interface (ACI) を使用して、高レベルのエージェント決定を実行可能なコマンドに変換します。通常、デュアルモデルアーキテクチャを採用します：高レベル推論のためのメイン生成モデル（例: GPT-5）と、意図を正確な画面座標やアクションにマッピングするための専門的なグラウンディングモデル（例: UI-TARS）。さらに、ローカルコーディング環境を拡張でき、エージェントは Python や Bash のコードを実行して、データ処理やシステム自動化など、GUI 操作よりも効率的なタスクを行うことができます。

対象者

このプロジェクトは、自律 GUI エージェントを構築する開発者や研究者、AI で手動ワークフローを置き換えたいオートメーションエンジニア、そして最先端のコンピュータ使用エージェント（CUA）に関心のある方々を対象としています。

ハイライト

人間レベルのパフォーマンス: Agent S3 は OSWorld ベンチマークで人間レベルのパフォーマンス（72.60%）を超えました。
クロスプラットフォームサポート: Windows、macOS、Linux で動作します。
ゼロショット汎化: WindowsAgentArena や AndroidWorld など、特定のトレーニングなしで新しい環境でも高い機能を示します。
ハイブリッドインタラクション: GUI 操作とローカルコード実行を組み合わせ、複雑なシステムタスクに対応します。

Agent-S: クロスプラットフォームのコンピュータ使用において OSWorld で人間のパフォーマンスを超える自律 GUI エージェントフレームワーク

Agent-S: クロスプラットフォームのコンピュータ使用において OSWorld で人間のパフォーマンスを超える自律 GUI エージェントフレームワーク

解決する課題

仕組み

対象者

ハイライト

Sources