openbrowser:一个用于 TypeScript 的自主网页浏览框架,可通过 Playwright 执行自然语言任务
openbrowser:一个用于 TypeScript 的自主网页浏览框架,可通过 Playwright 执行自然语言任务
它解决了什么问题
Open Browser 为 AI 代理提供了一种自主与网页交互的方式。用户无需为每个网站编写手动脚本,只需用自然语言描述任务,代理即可处理完成任务所需的页面导航、点击、输入和数据提取。
工作原理
该框架使用一个循环:AI 代理将当前页面状态和用户目标发送给大语言模型(LLM)。LLM 决定所需的操作——例如点击按钮或在字段中输入——随后这些操作通过 Playwright 浏览器实例执行。代理持续进行观察与操作的循环,直至任务完成。
适用人群
本框架面向希望在应用中集成自主网页浏览功能的 TypeScript 开发者,或希望使用 CLI 自动化网页任务而无需手动编码的用户。
亮点
- 多模型支持:通过 Vercel AI SDK 兼容 OpenAI、Anthropic 和 Google 模型。
- 交互式 REPL:提供实时浏览器提示,便于调试和原型开发。
- 沙箱执行:提供资源限制(CPU/内存)和域名限制,确保代理运行更安全。
- 生产就绪特性:包括卡顿检测、费用追踪、会话管理和回放记录。
Sources
- undefinedntegrals/openbrowser