page-agent: テキストベースの DOM 操作でウェブインターフェースを自然言語で制御できるクライアントサイド GUI エージェント

解決する課題

Page Agent は、AI コパイロットをウェブページに直接統合する方法を提供し、ユーザーが自然言語でウェブインターフェースを操作できるようにします。バックエンドの大規模な書き換えやブラウザ拡張機能、ヘッドレスブラウザを必要とせず、ページ内の基本的な自動化を実現できるため、SaaS 製品、ERP、アクセシビリティツール向けの AI 駆動ユーザーインターフェース構築が容易になります。

仕組み

多くのウェブエージェントがスクリーンショットとマルチモーダル LLM に依存するのとは異なり、Page Agent はテキストベースの DOM 操作を使用します。ページに直接組み込まれた JavaScript ライブラリとして動作し、ページ上の要素とやり取りできます。ユーザーは API 経由で自分の LLM を持ち込むことができ、エージェントは「ログインボタンをクリックして」などの自然言語を DOM 上のアクションに変換して実行します。

対象ユーザー

SaaS 開発者: 最小限のコードで製品に AI コパイロットを追加したい方。
エンタープライズソフトウェア利用者: 複雑な管理システム、CRM、ERP を使用しており、複数クリックのワークフローを一文で簡略化したい方。
アクセシビリティ専門家: 音声コマンドやスクリーンリーダーでウェブアプリをよりアクセシブルにするツールを作成している開発者。
ウェブエージェント開発者: オプションの Chrome 拡張機能を利用して、ブラウザタブ間でエージェントの範囲を拡張したい方。

ハイライト

クライアントサイド統合: ヘッドレスブラウザや Python を必要とせず、シンプルな script タグまたは NPM パッケージで動作。
テキストベースのインタラクション: ビジュアルスクリーンショットに依存せず、DOM 上で操作。
LLM 非依存: 任意の LLM プロバイダーを持ち込める。
拡張機能: マルチページタスク用のオプション Chrome 拡張機能と、外部制御用の MCP Server（ベータ）を提供。

page-agent: テキストベースの DOM 操作でウェブインターフェースを自然言語制御できるクライアントサイド GUI エージェント

page-agent: テキストベースの DOM 操作でウェブインターフェースを自然言語で制御できるクライアントサイド GUI エージェント

解決する課題

仕組み

対象ユーザー

ハイライト

Sources