page-agent: テキストベースの DOM 操作でウェブインターフェースを自然言語制御できるクライアントサイド GUI エージェント

page-agent: テキストベースの DOM 操作でウェブインターフェースを自然言語で制御できるクライアントサイド GUI エージェント

解決する課題

Page Agent は、AI コパイロットをウェブページに直接統合する方法を提供し、ユーザーが自然言語でウェブインターフェースを操作できるようにします。バックエンドの大規模な書き換えやブラウザ拡張機能、ヘッドレスブラウザを必要とせず、ページ内の基本的な自動化を実現できるため、SaaS 製品、ERP、アクセシビリティツール向けの AI 駆動ユーザーインターフェース構築が容易になります。

仕組み

多くのウェブエージェントがスクリーンショットとマルチモーダル LLM に依存するのとは異なり、Page Agent はテキストベースの DOM 操作を使用します。ページに直接組み込まれた JavaScript ライブラリとして動作し、ページ上の要素とやり取りできます。ユーザーは API 経由で自分の LLM を持ち込むことができ、エージェントは「ログインボタンをクリックして」などの自然言語を DOM 上のアクションに変換して実行します。

対象ユーザー

  • SaaS 開発者: 最小限のコードで製品に AI コパイロットを追加したい方。
  • エンタープライズソフトウェア利用者: 複雑な管理システム、CRM、ERP を使用しており、複数クリックのワークフローを一文で簡略化したい方。
  • アクセシビリティ専門家: 音声コマンドやスクリーンリーダーでウェブアプリをよりアクセシブルにするツールを作成している開発者。
  • ウェブエージェント開発者: オプションの Chrome 拡張機能を利用して、ブラウザタブ間でエージェントの範囲を拡張したい方。

ハイライト

  • クライアントサイド統合: ヘッドレスブラウザや Python を必要とせず、シンプルな script タグまたは NPM パッケージで動作。
  • テキストベースのインタラクション: ビジュアルスクリーンショットに依存せず、DOM 上で操作。
  • LLM 非依存: 任意の LLM プロバイダーを持ち込める。
  • 拡張機能: マルチページタスク用のオプション Chrome 拡張機能と、外部制御用の MCP Server(ベータ)を提供。

Sources