page-agent: テキストベースの DOM 操作でウェブインターフェースを自然言語制御できるクライアントサイド GUI エージェント
page-agent: テキストベースの DOM 操作でウェブインターフェースを自然言語で制御できるクライアントサイド GUI エージェント
解決する課題
Page Agent は、AI コパイロットをウェブページに直接統合する方法を提供し、ユーザーが自然言語でウェブインターフェースを操作できるようにします。バックエンドの大規模な書き換えやブラウザ拡張機能、ヘッドレスブラウザを必要とせず、ページ内の基本的な自動化を実現できるため、SaaS 製品、ERP、アクセシビリティツール向けの AI 駆動ユーザーインターフェース構築が容易になります。
仕組み
多くのウェブエージェントがスクリーンショットとマルチモーダル LLM に依存するのとは異なり、Page Agent はテキストベースの DOM 操作を使用します。ページに直接組み込まれた JavaScript ライブラリとして動作し、ページ上の要素とやり取りできます。ユーザーは API 経由で自分の LLM を持ち込むことができ、エージェントは「ログインボタンをクリックして」などの自然言語を DOM 上のアクションに変換して実行します。
対象ユーザー
- SaaS 開発者: 最小限のコードで製品に AI コパイロットを追加したい方。
- エンタープライズソフトウェア利用者: 複雑な管理システム、CRM、ERP を使用しており、複数クリックのワークフローを一文で簡略化したい方。
- アクセシビリティ専門家: 音声コマンドやスクリーンリーダーでウェブアプリをよりアクセシブルにするツールを作成している開発者。
- ウェブエージェント開発者: オプションの Chrome 拡張機能を利用して、ブラウザタブ間でエージェントの範囲を拡張したい方。
ハイライト
- クライアントサイド統合: ヘッドレスブラウザや Python を必要とせず、シンプルな script タグまたは NPM パッケージで動作。
- テキストベースのインタラクション: ビジュアルスクリーンショットに依存せず、DOM 上で操作。
- LLM 非依存: 任意の LLM プロバイダーを持ち込める。
- 拡張機能: マルチページタスク用のオプション Chrome 拡張機能と、外部制御用の MCP Server(ベータ)を提供。
Sources
- undefinedalibaba/page-agent