mobilerun: LLM 에이전트를 사용해 Android 및 iOS 기기를 제어하는 오픈소스 프레임워크

mobilerun: LLM 에이전트를 사용해 Android 및 iOS 기기를 제어하는 오픈소스 프레임워크

해결하는 문제

Mobilerun은 자연어 명령을 통해 Android 및 iOS 기기를 제어할 수 있는 방법을 제공합니다. LLM 에이전트가 앱을 탐색하고, 다단계 워크플로를 수행하며, 모바일 인터페이스에서 데이터를 추출하도록 함으로써 모바일 상호작용을 수동으로 스크립팅할 필요를 없애줍니다.

작동 방식

이 프레임워크는 기기에 설치된 "Portal" 앱을 사용해 LLM과 모바일 OS 사이의 다리를 연결합니다. 접근성 트리(UI 상태)와 스크린샷을 결합해 시각적 이해를 가능하게 하며, 에이전트가 탭, 스와이프, 입력을 수행할 수 있게 합니다. 사용자는 CLI, Python API, 또는 Docker를 통해 시스템과 상호작용할 수 있으며, OpenAI, Anthropic, Gemini 등 다양한 LLM 제공자를 선택할 수 있습니다. 복잡한 작업을 위해서는 매니저‑실행자 계획 아키텍처를 활용하는 "reasoning mode"를 제공합니다.

대상 사용자

  • QA 엔지니어: 모바일 앱 테스트 및 회귀 검증을 위해.
  • 개발자: Python을 통해 맞춤형 모바일 자동화 워크플로를 구축하려는 경우.
  • 자동화 애호가: 반복적인 모바일 작업을 자동화하거나 네이티브 앱에서 데이터를 추출하고자 할 때.
  • 비기술 사용자: 간단한 프롬프트만으로 안내된 모바일 워크플로를 실행하고자 할 때.

주요 특징

  • 크로스 플랫폼: Android와 iOS 기기를 모두 지원합니다.
  • 멀티모달 입력: 접근성 트리와 비전 기반 스크린샷 분석을 결합합니다.
  • 유연한 실행: 빠른 작업을 위한 CLI와 보다 깊은 통합을 위한 Python API를 제공합니다.
  • Reasoning Mode: 복잡하고 다단계 계획을 통한 정교한 자동화를 가능하게 합니다.
  • 광범위한 모델 지원: OpenAI, Anthropic, Gemini, Ollama, DeepSeek, OpenRouter와 호환됩니다.

SUMMARY: 자연어를 사용해 LLM 에이전트가 Android 및 iOS 기기를 제어할 수 있게 하는 오픈소스 프레임워크로, UI 검사, 탐색 및 다단계 자동화를 위한 도구를 제공합니다.

TITLE: mobilerun: LLM 에이전트를 사용해 Android 및 iOS 기기를 제어하는 오픈소스 프레임워크

Sources