openbrowser:一個使用 TypeScript 的自主網頁瀏覽框架,透過 Playwright 執行自然語言任務

openbrowser:一個使用 TypeScript 的自主網頁瀏覽框架,透過 Playwright 執行自然語言任務

它解決了什麼問題

Open Browser 提供了一種讓 AI 代理自主與網頁互動的方式。使用者不需要為每個網站手動撰寫腳本,只要以自然語言描述任務,代理就會負責完成所需的導覽、點擊、輸入與資料擷取等工作。

工作原理

此框架採用一個迴圈:AI 代理將當前頁面的狀態與使用者的目標傳送給大型語言模型(LLM)。LLM 會決定所需的操作——例如點擊按鈕或在欄位中輸入文字——然後透過 Playwright 瀏覽器實例執行這些操作。代理持續進行觀察與行動的循環,直到任務完成。

目標對象

此框架針對希望在應用程式中整合自主網頁瀏覽功能,或是想使用 CLI 自動化網頁任務而不需手動編碼的 TypeScript 開發者設計。

重點特色

  • 多模型支援:相容於 OpenAI、Anthropic 與 Google 模型,透過 Vercel AI SDK 使用。
  • 互動式 REPL:內建即時瀏覽器提示,可用於即時除錯與原型開發。
  • 沙盒執行:提供資源限制(CPU/記憶體)與網域限制,確保代理執行更安全。
  • 上線就緒功能:包含卡頓偵測、成本追蹤、會話管理與重放錄製等功能。

Sources