browser-harness: 이것이 무엇인지, 어떤 문제를 해결하며, 왜 인기를 얻고 있는지
browser-harness: 이것이 무엇인지, 어떤 문제를 해결하며, 왜 인기를 얻고 있는지
해결하는 문제
Browser Harness는 대규모 언어 모델(LLMs)이 Chrome DevTools Protocol (CDP)를 통해 실제 웹 브라우저와 직접 상호작용할 수 있는 방법을 제공합니다. 이는 에이전트와 브라우저 사이의 제한적인 계층을 제거하여, 에이전트가 완전한 자유를 가지고 복잡한 작업을 수행하고 실행 중에 장애물을 극복하기 위해 자체 헬퍼 코드를 수정할 수 있는 능력을 부여합니다.
작동 방식
이 시스템은 LLM을 실행 중인 Chrome 또는 Chromium 브라우저에 연결하는 얇은 CDP harness를 사용합니다. 에이전트가 기존 도구로 수행할 수 없는 작업에 직면했을 때, 전용 워크스페이스(agent_helpers.py)에 자체 헬퍼 함수를 작성하고 편집하거나, 별도의 디렉토리에 재사용 가능한 사이트별 "도메인 기술"을 생성할 수 있습니다. 이를 통해 에이전트는 자신의 능력을 향상시키고 각 실행으로부터 학습할 수 있습니다.
대상 사용자
코딩 에이전트(Claude Code 또는 Codex와 같은)를 사용하여 브라우저 작업을 자동화하려는 사용자 및 AI 에이전트가 웹과 상호작용하는 방식에 대해 높은 수준의 유연성과 제어권을 필요로 하는 사용자를 위해 설계되었습니다.
주요 특징
- Self-Improving: 에이전트는 문제를 해결하기 위해 즉석에서 자체 헬퍼 코드와 기술을 작성하고 업데이트할 수 있습니다.
- Direct Connection: CDP를 통해 Chrome에 직접 연결하기 위해 websocket을 사용하며, 추상화 계층을 최소화합니다.
- Lighweight Architecture: 핵심 패키지는 작으며, 4개의 핵심 파일에 걸쳐 약 1,000줄의 코드로 구성됩니다.
- Cloud Integration: 로컬 브라우저 또는 Browser Use Cloud를 통한 stealth/headless 브라우저로의 연결을을 지원합니다.
Sources
- undefinedbrowser-use/browser-harness