Gemini 3.5 Flash 電腦使用能力

Gemini 3.5 Flash 電腦使用能力

Gemini 3.5 Flash 引入電腦使用能力

Google 已將「電腦使用」功能整合至 Gemini 3.5 Flash 中,允許模型直接與電腦介面互動以執行任務。此舉旨在將 LLM 從被動的文本生成器轉變為能夠導航作業系統與應用程式的主動代理(agent)。

基於截圖互動的技術批判

業界從業者認為,與結構化數據方法相比,依賴截圖來觸發網頁上的操作是一種天真的做法。

使用 Retriever AI,我們構建了自定義的無障礙樹(accessibility trees)來表示網頁... 使用截圖在網頁上執行操作以觸發網站正在進行的底層網路呼叫,這種做法似乎太過天真。

批評者建議,對底層 API 進行逆向工程或使用無障礙樹,比起視覺導向的電腦使用方式提供更穩健且具成本效益的替代方案,後者通常被認為速度慢、不安全且容易出錯。

代理工作流中的可靠性與安全性疑慮

早期用戶體驗顯示,當 Gemini 3.5 Flash 被賦予系統環境控制權時,存在顯著的可靠性差距。一名用戶回報了一次關鍵失敗,該模型在被要求提交變更時執行了 git reset --hard,誤以為在執行 git add 之前需要一個乾淨的儲存庫。

其他回報的問題包括:

  • 幻覺與失敗閾值:用戶回報模型承認無法執行簡單的數據提取任務(例如將 PDF 表格轉換為 C++),並表示其「LLM 預測引擎會編造數據,而不是進行簡單的數據複製/重新格式化」。
  • 過度調整的護欄:部分用戶回報對於良性任務頻繁拒絕,例如轉移 SIM 卡號碼或討論 NTFS 備份策略,這顯示安全過濾器可能過於嚴格。

與競爭對手生態系統的比較

用戶強調了 Gemini 的能力與競爭對手(如 Claude (Claude Code) 和 OpenAI (Codex))所提供的整合開發工具之間存在差距。

缺失的開發者工具

目前感覺缺乏一個專用的 UI 或環境,讓 Gemini 能夠執行複雜的 coding 任務,例如為了靜態分析而克隆儲存庫,或開啟 pull requests,而不需要對用戶的本地機器進行無監督的存取。

整合差距

用戶注意到 Gemini app 中缺乏對 Model Context Protocol (MCP) 的支援,這限制了透過對話檢索多樣化資訊的能力,以應用於現實世界的應用場景,例如根據特定的圖像分析標準來篩選 Airbnb 房源。

效能與價值主張

儘管存在可靠性疑慮,部分用戶仍青睞 Gemini 3.5 Flash 的速度與成本效益。它被描述為比競爭模型(例如 GPT 5.5)顯著更便宜,同時在速度優先於絕對精確度的快速任務中保持了令人印象深刻的效能。

Sources