openbrowser: Playwright를 통해 자연어 작업을 실행하는 TypeScript용 자율 웹 브라우징 프레임워크

openbrowser: Playwright를 통해 자연어 작업을 실행하는 TypeScript용 자율 웹 브라우징 프레임워크

해결하는 문제

Open Browser는 AI 에이전트가 웹과 자율적으로 상호작용할 수 있는 방법을 제공합니다. 모든 웹사이트마다 수동 스크립트를 작성하는 대신, 사용자는 자연어로 작업을 설명하면 에이전트가 해당 작업을 완료하기 위해 필요한 탐색, 클릭, 입력 및 데이터 추출을 처리합니다.

작동 방식

이 프레임워크는 AI 에이전트가 현재 페이지 상태와 사용자의 목표를 대형 언어 모델(LLM)에 전달하는 루프를 사용합니다. LLM은 버튼 클릭이나 필드 입력과 같은 필요한 행동을 결정하고, 이는 Playwright 브라우저 인스턴스를 통해 실행됩니다. 에이전트는 작업이 완료될 때까지 관찰과 행동의 사이클을 계속합니다.

대상 사용자

자율 웹 브라우징 기능을 애플리케이션에 통합하고 싶거나, CLI를 사용해 수동 코딩 없이 웹 작업을 자동화하고자 하는 TypeScript 개발자를 위해 설계되었습니다.

주요 특징

  • 멀티 모델 지원: Vercel AI SDK를 통해 OpenAI, Anthropic, Google 모델과 호환됩니다.
  • 대화형 REPL: 실시간 디버깅 및 프로토타이핑을 위한 라이브 브라우저 프롬프트를 포함합니다.
  • 샌드박스 실행: 더 안전한 에이전트 실행을 위해 리소스 제한(CPU/메모리) 및 도메인 제한을 제공합니다.
  • 프로덕션 준비 기능: 정체 감지, 비용 추적, 세션 관리 및 재생 기록을 포함합니다.

Sources