mobilerun：一个使用 LLM 代理控制 Android 和 iOS 设备的开源框架

它解决了什么问题

mobilerun 提供了一种使用自然语言指令来控制 Android 和 iOS 设备的方式。它通过让 LLM 代理在应用中导航、执行多步骤工作流以及从移动界面提取数据，消除了手动编写移动交互脚本的需求。

工作原理

该框架使用安装在设备上的 “Portal” 应用来搭建 LLM 与移动操作系统之间的桥梁。它结合可访问性树（UI 状态）和截图进行视觉理解，使代理能够点击、滑动和输入。用户可以通过 CLI、Python API 或 Docker 与系统交互，并可选择多种 LLM 提供商（如 OpenAI、Anthropic 和 Gemini）。对于复杂任务，它提供了采用管理者‑执行者规划架构的 “reasoning mode”。

适用人群

QA 工程师： 用于移动应用测试和回归检查。
开发者： 通过 Python 构建自定义移动自动化工作流。
自动化爱好者： 自动化重复的移动任务或从原生应用中提取数据。
非技术用户： 通过简单提示执行引导式移动工作流。

亮点

跨平台： 支持 Android 和 iOS 设备。
多模态输入： 将可访问性树与基于视觉的截图分析相结合。
灵活执行： 提供用于快速任务的 CLI 和用于深度集成的 Python API。
推理模式： 为复杂的多步骤自动化提供规划能力。
广泛模型支持： 兼容 OpenAI、Anthropic、Gemini、Ollama、DeepSeek 和 OpenRouter。

mobilerun：一个使用 LLM 代理控制 Android 和 iOS 设备的开源框架

mobilerun：一个使用 LLM 代理控制 Android 和 iOS 设备的开源框架

它解决了什么问题

工作原理

适用人群

亮点

Sources