TuriX-CUA:一款无需特定 API 即可跨任何应用自动化桌面 GUI 操作的计算机使用代理
TuriX-CUA:一款无需特定 API 即可跨任何应用自动化桌面 GUI 操作的计算机使用代理
它解决了什么问题
TuriX 是一款计算机使用代理,允许用户在无需针对特定应用的 API 的情况下,跨各种应用自动化桌面操作。它使用户能够“与电脑对话”,让 AI 在 GUI 上直接执行复杂任务——例如预订机票、搜索信息并创建文档,或在不同软件之间移动数据。
工作原理
系统使用视觉语言模型(VLM)作为其“大脑”,来解释屏幕并规划操作。它可以通过 config.json 文件配置不同的模型(例如通过 Turix API、Ollama 或其他提供商)。该代理可以通过“技能”(markdown 剧本)进行扩展,为规划器在执行特定类型任务时提供具体指令。它还支持模型上下文协议(MCP),以便与其他代理(如 Claude for Desktop)集成。
适用人群
该工具面向个人和研究使用,针对希望在 macOS、Windows 和 Linux 上自动化重复桌面工作流的用户。
亮点
- API 无关的自动化:在 GUI 上操作,意味着它可以控制任何人类能够点击的应用。
- 高性能:在 OSWorld 基准测试中实现 64.2% 的成功率,在 macOS 专用基准测试中超过 80%。
- 热插拔模型:用户可以轻松更换底层 VLM 策略,无需修改代码。
- 可扩展技能:使用基于 markdown 的剧本来指导代理的规划和执行。
- 跨平台支持:支持 macOS、Windows 和 Linux。
摘要
一款开源的计算机使用代理,能够在无需特定 API 的情况下跨任何应用自动化桌面 GUI 操作。
标题
TuriX-CUA:一款无需特定 API 即可跨任何应用自动化桌面 GUI 操作的计算机使用代理
Sources
- undefinedTurixAI/TuriX-CUA