page-agent:一個客戶端 GUI 代理,透過文字式 DOM 操作實現自然語言控制網頁介面
page-agent:一個客戶端 GUI 代理,透過文字式 DOM 操作實現自然語言控制網頁介面
它解決了什麼問題
Page Agent 提供了一種將 AI 副駕直接整合到網頁中的方式,讓使用者能以自然語言控制網頁介面。它消除了為基本頁面自動化而必須進行的複雜後端重寫、瀏覽器擴充功能或無頭瀏覽器的需求,使得為 SaaS 產品、ERP 系統與無障礙工具構建 AI 驅動的使用者介面變得更簡單。
工作原理
與許多依賴螢幕截圖與多模態 LLM 的網頁代理不同,Page Agent 採用文字式 DOM 操作。它作為 JavaScript 函式庫直接嵌入網頁,從而能與頁面上的元素互動。使用者可以透過 API 自行帶入 LLM,代理會將自然語言翻譯成對 DOM 的操作,例如「點擊登入按鈕」。
目標對象
- SaaS 開發者:希望以最少程式碼為產品加入 AI 副駕的開發者。
- 企業軟體使用者:使用複雜管理系統、CRM 或 ERP 軟體,想把多步點擊工作流程簡化為單句指令的人員。
- 無障礙專家:開發透過語音指令或螢幕閱讀器提升網頁應用可及性的工具的開發者。
- 網頁代理開發者:構建可跨瀏覽器分頁延伸功能的多頁面代理,並可選用 Chrome 擴充功能的開發者。
重點特色
- 客戶端整合:只需簡單的 script 標籤或 NPM 套件,無需無頭瀏覽器或 Python。
- 文字式互動:操作 DOM,而非依賴視覺螢幕截圖。
- LLM 無關:支援自行帶入的 LLM 供應商。
- 擴充功能:提供可選的 Chrome 擴充功能以支援多頁面任務,並有 MCP Server(Beta)供外部控制使用。
Sources
- undefinedalibaba/page-agent