page-agent:一個客戶端 GUI 代理,透過文字式 DOM 操作實現自然語言控制網頁介面
page-agent:一個客戶端 GUI 代理,透過文字式 DOM 操作實現自然語言控制網頁介面
它解決了什麼問題
Page Agent 提供了一種將 AI 副駕直接整合到網頁中的方式,讓使用者能以自然語言控制網頁介面。它免除了為基本頁面自動化而必須進行的複雜後端重寫、瀏覽器擴充功能或無頭瀏覽器的需求,讓在 SaaS 產品、ERP 系統以及無障礙工具上構建 AI 驅動的使用者介面變得更簡單。
它如何運作
與許多依賴螢幕截圖與多模態 LLM 的網頁代理不同,Page Agent 採用文字式 DOM 操作。它作為一個直接嵌入網頁的 JavaScript 函式庫執行,因而能與頁面上的元素互動。使用者可以透過 API 自行帶入 LLM,代理會將「點擊登入按鈕」等自然語句翻譯成對 DOM 的操作指令。
目標對象
- SaaS 開發者:想以最少程式碼為產品加入 AI 副駕的人。
- 企業軟體使用者:使用複雜管理系統、CRM 或 ERP 軟體,想把多步點擊工作流程簡化為單一句子的使用者。
- 無障礙專家:開發透過語音指令或螢幕閱讀器提升網頁應用可及性的工具的開發者。
- 網頁代理開發者:構建可跨瀏覽器分頁延伸功能的多頁面代理,並可選擇使用 Chrome 擴充功能的開發者。
重點特色
- 客戶端整合:只需簡單的 script 標籤或 NPM 套件,即可使用,無需無頭瀏覽器或 Python。
- 文字式互動:在 DOM 上操作,而非依賴視覺螢幕截圖。
- LLM 無關:支援自行帶入的 LLM 供應商。
- 擴充功能:提供可選的 Chrome 擴充功能以支援多頁面任務,並有 MCP Server(Beta)供外部控制使用。
Sources
- undefinedalibaba/page-agent