mobilerun:一个使用 LLM 代理控制 Android 和 iOS 设备的开源框架

mobilerun:一个使用 LLM 代理控制 Android 和 iOS 设备的开源框架

它解决了什么问题

mobilerun 提供了一种使用自然语言指令来控制 Android 和 iOS 设备的方式。它通过让 LLM 代理在应用中导航、执行多步骤工作流以及从移动界面提取数据,消除了手动编写移动交互脚本的需求。

工作原理

该框架使用安装在设备上的 “Portal” 应用来搭建 LLM 与移动操作系统之间的桥梁。它结合可访问性树(UI 状态)和截图进行视觉理解,使代理能够点击、滑动和输入。用户可以通过 CLI、Python API 或 Docker 与系统交互,并可选择多种 LLM 提供商(如 OpenAI、Anthropic 和 Gemini)。对于复杂任务,它提供了采用管理者‑执行者规划架构的 “reasoning mode”。

适用人群

  • QA 工程师: 用于移动应用测试和回归检查。
  • 开发者: 通过 Python 构建自定义移动自动化工作流。
  • 自动化爱好者: 自动化重复的移动任务或从原生应用中提取数据。
  • 非技术用户: 通过简单提示执行引导式移动工作流。

亮点

  • 跨平台: 支持 Android 和 iOS 设备。
  • 多模态输入: 将可访问性树与基于视觉的截图分析相结合。
  • 灵活执行: 提供用于快速任务的 CLI 和用于深度集成的 Python API。
  • 推理模式: 为复杂的多步骤自动化提供规划能力。
  • 广泛模型支持: 兼容 OpenAI、Anthropic、Gemini、Ollama、DeepSeek 和 OpenRouter。

Sources