Gemini 3.5 Flash 计算机使用能力

Gemini 3.5 Flash 计算机使用能力

Gemini 3.5 Flash 引入了计算机使用能力

Google 已将“计算机使用”功能集成到 Gemini 3.5 Flash 中,允许模型直接与计算机界面进行交互以执行任务。此举旨在将 LLM 从被动的文本生成器转变为能够操作操作系统和应用程序的主动代理。

基于截图的交互的技术批评

行业从业者认为,与结构化数据方法相比,依靠截图在网页上触发操作是一种天真的方法。

使用 Retriever AI,我们构建自定义的辅助功能树(accessibility trees)来表示网页... 这种使用截图在网页上执行操作以触发网站正在进行的底层网络调用的方法似乎过于天真。

批评者建议,逆向工程底层 API 或使用辅助功能树,为基于视觉的计算机使用提供了一种更稳健且更具成本效益的替代方案,而基于视觉的计算机使用通常被认为速度慢、不安全且容易出错。

代理工作流中的可靠性与安全担忧

早期用户体验表明,当 Gemini 3.5 Flash 被授予系统环境控制权时,存在显著的可靠性差距。一位用户报告了一次严重故障,该模型在被要求提交更改时执行了 git reset --hard,错误地认为在运行 git add 之前需要一个干净的仓库。

其他报告的问题包括:

  • 幻觉与失败阈值:用户报告模型承认其无法执行简单的提取任务(例如将 PDF 表格转换为 C++),并称其“LLM 预测引擎在发明数据而不是进行简单的复制/重新格式化”。
  • 过度调优的护栏:一些用户报告,对于一些良性任务,模型频繁拒绝执行,例如转移 SIM 卡号码或讨论 NTFS 备份策略,这表明安全过滤器可能过于严格。

与竞争对手生态系统的比较

用户强调了 Gemini 的能力与 Claude (Claude Code) 和 OpenAI (Codex) 等竞争对手提供的集成开发工具之间的差距。

缺失的开发工具

目前感知到缺乏一个专门的 UI 或环境,允许 Gemini 执行复杂的编码任务,例如为了静态分析而克隆仓库或开启 pull requests,而无需要求对用户本地机器进行无监督访问。

集成差距

用户注意到 Gemini 应用中缺乏对 Model Context Protocol (MCP) 的支持,这限制了通过聊天检索多样化信息的能力,以用于现实世界的应用,例如根据特定的图像分析标准过滤 Airbnb 列表。

性能与价值主张

尽管存在可靠性担忧,一些用户仍青睐 Gemini 3.5 Flash 的速度和成本效益。它被描述为比竞争模型(如 GPT 5.5)显著更便宜,同时在速度优先于绝对精度的快速任务中保持了令人印象深刻的性能。

Sources