mobilerun: LLM エージェントで Android と iOS デバイスを制御するオープンソースフレームワーク

mobilerun: LLM エージェントで Android と iOS デバイスを制御するオープンソースフレームワーク

解決する課題

mobilerun は、自然言語コマンドを使用して Android と iOS デバイスを制御する方法を提供します。LLM エージェントがアプリを操作し、マルチステップのワークフローを実行し、モバイルインターフェースからデータを抽出できるようにすることで、モバイル操作の手動スクリプト作成の必要性を排除します。

仕組み

このフレームワークは、デバイスにインストールされた「Portal」アプリを使用して、LLM とモバイル OS の間の橋渡しを行います。アクセシビリティツリー(UI 状態)とスクリーンショットを組み合わせて視覚的理解を実現し、エージェントがタップ、スワイプ、入力できるようにします。ユーザーは CLI、Python API、または Docker を通じてシステムと対話でき、OpenAI、Anthropic、Gemini などのさまざまな LLM プロバイダーを選択できます。複雑なタスク向けには、マネージャ‑エグゼキュータのプランニングアーキテクチャを採用した「reasoning mode」も備えています。

対象ユーザー

  • QA エンジニア: モバイルアプリのテストや回帰チェックに。
  • 開発者: Python を使ってカスタムモバイル自動化ワークフローを構築するために。
  • 自動化愛好者: 繰り返しのモバイル作業を自動化したり、ネイティブアプリからデータを抽出したりするために。
  • 非技術ユーザー: シンプルなプロンプトでガイドされたモバイルワークフローを実行できるように。

ハイライト

  • クロスプラットフォーム: Android と iOS の両方のデバイスをサポート。
  • マルチモーダル入力: アクセシビリティツリーとビジョンベースのスクリーンショット解析を組み合わせ。
  • 柔軟な実行: 簡単なタスク向けの CLI と、深い統合向けの Python API を提供。
  • Reasoning Mode: 複雑でマルチステップの計画を可能にし、洗練された自動化を実現。
  • 幅広いモデルサポート: OpenAI、Anthropic、Gemini、Ollama、DeepSeek、OpenRouter と互換性あり。

Summary

オープンソースのフレームワークで、LLM エージェントが自然言語を用いて Android と iOS デバイスを制御できるようにし、UI の検査、ナビゲーション、マルチステップ自動化のためのツールを提供します。

Title

mobilerun: LLM エージェントで Android と iOS デバイスを制御するオープンソースフレームワーク

Sources