Agent-S: OSWorld에서 인간 수준의 성능을 초과하는 크로스 플랫폼 컴퓨터 사용을 위한 자율 GUI 에이전트 프레임워크

해결하고자 하는 문제

Agent S는 인간처럼 자연스럽고 효과적으로 컴퓨터 그래픽 사용자 인터페이스(GUI)와 상호작용할 수 있는 AI 에이전트를 만드는 어려움을 극복하기 위해 설계되었습니다. Windows, macOS, Linux 전반에 걸쳐 자율적인 컴퓨터 사용을 가능하게 하는 프레임워크를 제공하여, 에이전트가 화면 내용을 해석하고 행동을 실행함으로써 복잡한 작업을 수행할 수 있게 합니다.

작동 방식

시스템은 Agent-Computer Interface (ACI)를 사용해 고수준 에이전트 의사결정을 실행 가능한 명령으로 변환합니다. 일반적으로 이중 모델 아키텍처를 사용합니다: 고수준 추론을 담당하는 메인 생성 모델(예: GPT-5)과 이러한 의도를 정확한 화면 좌표와 행동으로 매핑하는 특화된 그라운딩 모델(예: UI-TARS). 또한 프레임워크는 로컬 코딩 환경과 연동될 수 있어, 에이전트가 Python 및 Bash 코드를 실행해 데이터 처리나 시스템 자동화와 같이 GUI 상호작용보다 효율적인 작업을 수행할 수 있습니다.

대상 사용자

이 프로젝트는 자율 GUI 에이전트를 구축하는 개발자와 연구자, AI를 활용해 수동 워크플로를 대체하려는 자동화 엔지니어, 그리고 최첨단 컴퓨터 사용 에이전트(CUA)에 관심이 있는 사람들을 위한 것입니다.

주요 특징

인간 수준 성능: Agent S3는 OSWorld 벤치마크에서 인간 수준 성능(72.60%)을 초과했습니다.
크로스 플랫폼 지원: Windows, macOS, Linux에서 동작합니다.
제로샷 일반화: WindowsAgentArena 및 AndroidWorld와 같은 새로운 환경에서도 별도 학습 없이 강력한 수행 능력을 보여줍니다.
하이브리드 상호작용: GUI 상호작용과 로컬 코드를 실행하는 능력을 결합해 복잡한 시스템 작업을 처리합니다.

요약

오픈 소스 프레임워크로, Windows, macOS, Linux 전반에서 컴퓨터와 상호작용할 수 있는 자율 GUI 에이전트를 구축할 수 있으며, OSWorld에서 인간 수준의 성능을 달성합니다.

제목

Agent-S: OSWorld에서 인간 수준의 성능을 초과하는 크로스 플랫폼 컴퓨터 사용을 위한 자율 GUI 에이전트 프레임워크

Agent-S: OSWorld에서 인간 수준의 성능을 초과하는 크로스 플랫폼 컴퓨터 사용을 위한 자율 GUI 에이전트 프레임워크

Agent-S: OSWorld에서 인간 수준의 성능을 초과하는 크로스 플랫폼 컴퓨터 사용을 위한 자율 GUI 에이전트 프레임워크

해결하고자 하는 문제

작동 방식

대상 사용자

주요 특징

요약

제목

Sources