TuriX-CUA:一個可在任何應用程式上自動執行桌面 GUI 操作、且不需特定 API 的電腦使用代理人

TuriX-CUA:一個可在任何應用程式上自動執行桌面 GUI 操作、且不需特定 API 的電腦使用代理人

它解決了什麼問題

TuriX 是一個電腦使用代理人,讓使用者能在各種應用程式間自動化桌面操作,無需針對每個應用程式撰寫 API。它讓使用者能「與電腦對話」,由 AI 在圖形介面上直接執行複雜任務——例如預訂機票、搜尋資訊與建立文件,或在不同軟體之間搬移資料。

工作原理

系統以視覺語言模型(Vision Language Model,VLM)作為「大腦」來解析螢幕畫面並規劃動作。使用者可透過 config.json 檔案,將不同模型(例如 Turix API、Ollama 或其他供應商)配置進系統。代理人還可以透過「技能」(markdown 劇本)擴充,提供規劃器在執行特定類型任務時的指示。它亦支援 Model Context Protocol(MCP),以整合如 Claude for Desktop 等其他代理人。

目標使用者

此工具設計給個人與研究使用者,適用於想在 macOS、Windows 與 Linux 上自動化重複性桌面工作流程的人。

重點特色

  • 與 API 無關的自動化:直接操作 GUI,意味著它能控制任何人類能點擊的應用程式。
  • 高效能:在 OSWorld 基準測試中達到 64.2% 的成功率,且在 macOS 專屬基準測試中超過 80%。
  • 熱插拔模型:使用者可輕鬆更換底層 VLM 策略,無需修改程式碼。
  • 可擴充的技能:使用基於 markdown 的劇本指導代理人的規劃與執行。
  • 跨平台支援:支援 macOS、Windows 與 Linux。

Sources