mobilerun: LLM エージェントで Android と iOS デバイスを制御するオープンソースフレームワーク
mobilerun: LLM エージェントで Android と iOS デバイスを制御するオープンソースフレームワーク
解決する課題
mobilerun は、自然言語コマンドを使用して Android と iOS デバイスを制御する方法を提供します。LLM エージェントがアプリを操作し、マルチステップのワークフローを実行し、モバイルインターフェースからデータを抽出できるようにすることで、モバイル操作の手動スクリプト作成の必要性を排除します。
仕組み
このフレームワークは、デバイスにインストールされた「Portal」アプリを使用して、LLM とモバイル OS の間の橋渡しを行います。アクセシビリティツリー(UI 状態)とスクリーンショットを組み合わせて視覚的理解を実現し、エージェントがタップ、スワイプ、入力できるようにします。ユーザーは CLI、Python API、または Docker を通じてシステムと対話でき、OpenAI、Anthropic、Gemini などのさまざまな LLM プロバイダーを選択できます。複雑なタスク向けには、マネージャ‑エグゼキュータのプランニングアーキテクチャを採用した「reasoning mode」も備えています。
対象ユーザー
- QA エンジニア: モバイルアプリのテストや回帰チェックに。
- 開発者: Python を使ってカスタムモバイル自動化ワークフローを構築するために。
- 自動化愛好者: 繰り返しのモバイル作業を自動化したり、ネイティブアプリからデータを抽出したりするために。
- 非技術ユーザー: シンプルなプロンプトでガイドされたモバイルワークフローを実行できるように。
ハイライト
- クロスプラットフォーム: Android と iOS の両方のデバイスをサポート。
- マルチモーダル入力: アクセシビリティツリーとビジョンベースのスクリーンショット解析を組み合わせ。
- 柔軟な実行: 簡単なタスク向けの CLI と、深い統合向けの Python API を提供。
- Reasoning Mode: 複雑でマルチステップの計画を可能にし、洗練された自動化を実現。
- 幅広いモデルサポート: OpenAI、Anthropic、Gemini、Ollama、DeepSeek、OpenRouter と互換性あり。
Summary
オープンソースのフレームワークで、LLM エージェントが自然言語を用いて Android と iOS デバイスを制御できるようにし、UI の検査、ナビゲーション、マルチステップ自動化のためのツールを提供します。
Title
mobilerun: LLM エージェントで Android と iOS デバイスを制御するオープンソースフレームワーク
Sources
- undefineddroidrun/mobilerun