mobilerun:一個使用 LLM 代理控制 Android 與 iOS 裝置的開源框架

mobilerun:一個使用 LLM 代理控制 Android 與 iOS 裝置的開源框架

它解決了什麼問題

mobilerun 提供了一種使用自然語言指令來控制 Android 與 iOS 裝置的方法。它透過讓 LLM 代理在應用程式中導航、執行多步驟工作流程、以及從行動介面擷取資料,消除了手動編寫行動互動腳本的需求。

工作原理

此框架使用安裝在裝置上的「Portal」應用程式,作為 LLM 與行動作業系統之間的橋樑。它結合可存取性樹(UI 狀態)與螢幕截圖,以提供視覺理解,讓代理能點擊、滑動與輸入。使用者可以透過 CLI、Python API 或 Docker 與系統互動,並可選擇多種 LLM 供應商(如 OpenAI、Anthropic 與 Gemini)。對於複雜任務,框架提供「推理模式」,採用 manager‑executor 規劃架構。

目標對象

  • QA 工程師: 用於行動應用測試與回歸檢查。
  • 開發者: 透過 Python 建立自訂的行動自動化工作流程。
  • 自動化愛好者: 自動化重複性的行動任務或從原生應用擷取資料。
  • 非技術使用者: 透過簡單提示執行引導式行動工作流程。

重點特色

  • 跨平台: 支援 Android 與 iOS 裝置。
  • 多模態輸入: 結合可存取性樹與基於視覺的螢幕截圖分析。
  • 彈性執行: 提供 CLI 以快速執行任務,並提供 Python API 以進行更深入的整合。
  • 推理模式: 為複雜的多步驟自動化提供規劃能力。
  • 廣泛模型支援: 相容於 OpenAI、Anthropic、Gemini、Ollama、DeepSeek 與 OpenRouter。

摘要 一個開源框架,使 LLM 代理能以自然語言控制 Android 與 iOS 裝置,提供 UI 檢查、導航與多步驟自動化的工具。

標題 mobilerun:一個使用 LLM 代理控制 Android 與 iOS 裝置的開源框架

Sources