mobilerun:一个使用 LLM 代理控制 Android 和 iOS 设备的开源框架
mobilerun:一个使用 LLM 代理控制 Android 和 iOS 设备的开源框架
它解决了什么问题
mobilerun 提供了一种使用自然语言指令来控制 Android 和 iOS 设备的方式。它通过让 LLM 代理在应用中导航、执行多步骤工作流以及从移动界面提取数据,消除了手动编写移动交互脚本的需求。
工作原理
该框架使用安装在设备上的 “Portal” 应用来搭建 LLM 与移动操作系统之间的桥梁。它结合可访问性树(UI 状态)和截图进行视觉理解,使代理能够点击、滑动和输入。用户可以通过 CLI、Python API 或 Docker 与系统交互,并可选择多种 LLM 提供商(如 OpenAI、Anthropic 和 Gemini)。对于复杂任务,它提供了采用管理者‑执行者规划架构的 “reasoning mode”。
适用人群
- QA 工程师: 用于移动应用测试和回归检查。
- 开发者: 通过 Python 构建自定义移动自动化工作流。
- 自动化爱好者: 自动化重复的移动任务或从原生应用中提取数据。
- 非技术用户: 通过简单提示执行引导式移动工作流。
亮点
- 跨平台: 支持 Android 和 iOS 设备。
- 多模态输入: 将可访问性树与基于视觉的截图分析相结合。
- 灵活执行: 提供用于快速任务的 CLI 和用于深度集成的 Python API。
- 推理模式: 为复杂的多步骤自动化提供规划能力。
- 广泛模型支持: 兼容 OpenAI、Anthropic、Gemini、Ollama、DeepSeek 和 OpenRouter。
Sources
- undefineddroidrun/mobilerun