page-agent: 텍스트 기반 DOM 조작을 통해 웹 인터페이스를 자연어로 제어할 수 있는 클라이언트‑사이드 GUI 에이전트
page-agent: 텍스트 기반 DOM 조작을 통해 웹 인터페이스를 자연어로 제어할 수 있는 클라이언트‑사이드 GUI 에이전트
해결하는 문제
Page Agent는 AI 코파일럿을 웹 페이지에 직접 통합할 수 있는 방법을 제공하여 사용자가 자연어로 웹 인터페이스를 제어할 수 있게 합니다. 복잡한 백엔드 재작성, 브라우저 확장 프로그램, 혹은 헤드리스 브라우저 없이도 기본적인 페이지 내 자동화를 구현할 수 있어 SaaS 제품, ERP, 접근성 도구용 AI 기반 사용자 인터페이스를 구축하기가 쉬워집니다.
작동 방식
스크린샷과 멀티모달 LLM에 의존하는 많은 웹 에이전트와 달리 Page Agent는 텍스트 기반 DOM 조작을 사용합니다. 페이지에 직접 통합되는 JavaScript 라이브러리로 동작하여 페이지 요소와 상호작용할 수 있습니다. 사용자는 API를 통해 자신만의 LLM을 연결할 수 있으며, 에이전트는 "로그인 버튼을 클릭해"와 같은 자연어를 DOM 상의 동작으로 변환하여 실행합니다.
대상 사용자
- SaaS 개발자: 최소한의 코드로 제품에 AI 코파일럿을 추가하고 싶은 분
- 엔터프라이즈 소프트웨어 사용자: 복잡한 관리자 시스템, CRM, ERP 등을 사용하면서 다중 클릭 워크플로를 한 문장으로 단순화하고 싶은 분
- 접근성 전문가: 음성 명령이나 스크린 리더를 통해 웹 앱을 더 접근 가능하게 만들고자 하는 개발자
- 웹 에이전트 개발자: 선택적인 Chrome 확장 프로그램을 활용해 브라우저 탭 전반에 걸쳐 에이전트를 확장하고 싶은 분
주요 특징
- 클라이언트‑사이드 통합: 헤드리스 브라우저나 Python 없이 간단한 script 태그 또는 NPM 패키지만으로 동작
- 텍스트 기반 상호작용: 시각적 스크린샷이 아니라 DOM을 직접 조작
- LLM 무관: 원하는 LLM 제공자를 자유롭게 사용할 수 있음
- 확장 기능: 다중 페이지 작업을 위한 선택적 Chrome 확장 프로그램 및 외부 제어를 위한 MCP Server(Beta) 제공
Sources
- undefinedalibaba/page-agent