page-agent: 텍스트 기반 DOM 조작을 통해 웹 인터페이스를 자연어로 제어할 수 있는 클라이언트‑사이드 GUI 에이전트

page-agent: 텍스트 기반 DOM 조작을 통해 웹 인터페이스를 자연어로 제어할 수 있는 클라이언트‑사이드 GUI 에이전트

해결하는 문제

Page Agent는 AI 코파일럿을 웹 페이지에 직접 통합하는 방법을 제공하여 사용자가 자연어로 웹 인터페이스를 제어할 수 있게 합니다. 복잡한 백엔드 재작성, 브라우저 확장 프로그램, 혹은 헤드리스 브라우저 없이도 기본적인 페이지 내 자동화를 가능하게 하여 SaaS 제품, ERP, 접근성 도구용 AI 기반 사용자 인터페이스 구축을 보다 쉽게 만들어 줍니다.

작동 방식

많은 웹 에이전트가 스크린샷과 멀티모달 LLM에 의존하는 것과 달리, Page Agent는 텍스트 기반 DOM 조작을 사용합니다. 페이지에 직접 통합되는 JavaScript 라이브러리로 동작하여 페이지 요소와 상호작용할 수 있습니다. 사용자는 API를 통해 자신만의 LLM을 연결할 수 있으며, 에이전트는 "로그인 버튼을 클릭해"와 같은 자연어 명령을 DOM 상의 동작으로 변환하여 실행합니다.

대상 사용자

  • SaaS 개발자: 최소한의 코드로 제품에 AI 코파일럿을 추가하고 싶은 분들.
  • 엔터프라이즈 소프트웨어 사용자: 복잡한 관리자 시스템, CRM, ERP 등을 사용하면서 여러 번 클릭해야 하는 작업을 한 문장으로 단순화하고 싶은 분들.
  • 접근성 전문가: 음성 명령이나 스크린 리더를 통해 웹 앱을 더 접근 가능하게 만들고자 하는 개발자.
  • 웹 에이전트 개발자: 선택적인 Chrome 확장 프로그램을 이용해 브라우저 탭 간에 에이전트를 확장하고 싶은 분들.

주요 특징

  • 클라이언트‑사이드 통합: 헤드리스 브라우저나 Python 없이 간단한 script 태그 또는 NPM 패키지만으로 동작합니다.
  • 텍스트 기반 상호작용: 시각적 스크린샷이 아니라 DOM을 직접 조작합니다.
  • LLM 무관: 원하는 LLM 제공자를 자유롭게 사용할 수 있습니다.
  • 확장 기능: 다중 페이지 작업을 위한 선택적 Chrome 확장 프로그램과 외부 제어를 위한 MCP Server(Beta)를 제공합니다.

요약

텍스트 기반 DOM 조작을 통해 웹 인터페이스를 자연어로 제어할 수 있는 JavaScript 라이브러리로, 개발자가 AI 코파일럿을 웹 페이지에 직접 삽입할 수 있게 합니다.

제목

page-agent: 텍스트 기반 DOM 조작을 통해 웹 인터페이스를 자연어로 제어할 수 있는 클라이언트‑사이드 GUI 에이전트

Sources