mobilerun：一個使用 LLM 代理控制 Android 與 iOS 裝置的開源框架

它解決了什麼問題

mobilerun 提供了一種使用自然語言指令來控制 Android 與 iOS 裝置的方法。它透過讓 LLM 代理在應用程式中導航、執行多步驟工作流程、以及從行動介面擷取資料，消除了手動編寫行動互動腳本的需求。

工作原理

此框架使用安裝在裝置上的「Portal」應用程式，作為 LLM 與行動作業系統之間的橋樑。它結合可存取性樹（UI 狀態）與螢幕截圖，以提供視覺理解，讓代理能點擊、滑動與輸入。使用者可以透過 CLI、Python API 或 Docker 與系統互動，並可選擇多種 LLM 供應商（如 OpenAI、Anthropic 與 Gemini）。對於複雜任務，框架提供「推理模式」，採用 manager‑executor 規劃架構。

目標對象

QA 工程師： 用於行動應用測試與回歸檢查。
開發者： 透過 Python 建立自訂的行動自動化工作流程。
自動化愛好者： 自動化重複性的行動任務或從原生應用擷取資料。
非技術使用者： 透過簡單提示執行引導式行動工作流程。

重點特色

跨平台： 支援 Android 與 iOS 裝置。
多模態輸入： 結合可存取性樹與基於視覺的螢幕截圖分析。
彈性執行： 提供 CLI 以快速執行任務，並提供 Python API 以進行更深入的整合。
推理模式： 為複雜的多步驟自動化提供規劃能力。
廣泛模型支援： 相容於 OpenAI、Anthropic、Gemini、Ollama、DeepSeek 與 OpenRouter。

摘要一個開源框架，使 LLM 代理能以自然語言控制 Android 與 iOS 裝置，提供 UI 檢查、導航與多步驟自動化的工具。

標題 mobilerun：一個使用 LLM 代理控制 Android 與 iOS 裝置的開源框架

mobilerun：一個使用 LLM 代理控制 Android 與 iOS 裝置的開源框架

mobilerun：一個使用 LLM 代理控制 Android 與 iOS 裝置的開源框架

它解決了什麼問題

工作原理

目標對象

重點特色

Sources