TuriX-CUA: 任意のアプリケーションで特定の API を必要とせずにデスクトップ GUI アクションを自動化するコンピュータ使用エージェント
TuriX-CUA: 任意のアプリケーションで特定の API を必要とせずにデスクトップ GUI アクションを自動化するコンピュータ使用エージェント
解決する課題
TuriX は、ユーザーがアプリ固有の API を必要とせずに、さまざまなアプリケーション上でデスクトップ操作を自動化できるコンピュータ使用エージェントです。ユーザーは「コンピュータに話しかける」ことで、AI がフライトの予約、情報検索と文書作成、異なるソフトウェア間でのデータ移動など、複雑なタスクを GUI 上で直接実行します。
仕組み
このシステムは Vision Language Model(VLM)を「脳」として使用し、画面を解釈してアクションを計画します。config.json ファイルを通じて、Turix API、Ollama、その他のプロバイダーなど、さまざまなモデルを設定できます。エージェントは「スキル」(markdown プレイブック)で拡張でき、特定のタスクタイプを実行する際にプランナーが従うべき指示を提供します。また、Model Context Protocol(MCP)をサポートしており、Claude for Desktop など他のエージェントとの統合が可能です。
対象ユーザー
個人利用や研究目的で、macOS、Windows、Linux 上の繰り返しデスクトップワークフローを自動化したいユーザー向けに設計されています。
ハイライト
- API 非依存の自動化: GUI 上で動作するため、人間がクリックできるあらゆるアプリケーションを制御できます。
- 高性能: OSWorld ベンチマークで 64.2% の成功率、macOS 専用ベンチマークで 80%以上を達成。
- ホットスワップ可能なモデル: コードを変更せずに基盤となる VLM ポリシーを簡単に切り替えられます。
- 拡張可能なスキル: markdown ベースのプレイブックを使用して、エージェントの計画と実行をガイドします。
- クロスプラットフォーム対応: macOS、Windows、Linux で利用可能。
Sources
- undefinedTurixAI/TuriX-CUA