browser-harness: 這是什麼、解決了什麼問題以及為什麼它正受到關注

browser-harness: 這是什麼、解決了什麼問題以及為什麼它正受到關注

解決了什麼問題

瀏覽器工具架構 (Browser Harness) 為大型語言模型 (LLMs) 提供了一種透過 Chrome DevTools Protocol (CDP) 直接與真實網頁瀏覽器互動的方式。它移除了代理程式 (agent) 與瀏覽器之間的限制性層級,允許代理程式完全自由地執行複雜任務,並具備在執行過程中修改其自身輔助程式碼的能力,以克服障礙。

如何運作

該系統使用一個輕量級的 CDP 工具架構,將 LLM 連接到正在運行的 Chrome 或 Chromium 瀏覽器。當代理程式遇到無法使用現有工具執行的任務時,它可以透過專用的工作區 (agent_helpers.py) 編寫並編輯其自身的輔助函數,或是在獨立的目錄中建立可重複使用的特定網站「領域技能」 (domain skills)。這使得代理程式能夠提升其自身的能力並從每次執行中學習。

對象是誰

它是為那些想要使用程式碼代理程式 (例如 Claude Code 或 Codex) 來自動化瀏覽器任務的使用者,以及那些需要高度靈活性與控制權來管理 AI 代理程式如何與網頁互動的人士所設計的。

重點摘要

  • 自我改進: 代理程式可以即時編寫並更新其自身的輔助程式碼與技能以解決問題。
  • 直接連接: 使用 websocket 直接透過 CDP 連接到 Chrome,將抽象層級降至最低。
  • 輕量級架構: 核心套件非常小巧,由四個核心檔案組成,總計約 1,000 行程式碼。
  • 雲端整合: 支援連接到本地瀏覽器,或透過 Browser Use Cloud 連接到隱身/無頭瀏覽器 (stealth/headless browsers)。

Sources