CursorBench 3.1:在真实任务中评估 AI 编码代理

CursorBench 3.1:在真实任务中评估 AI 编码代理

CursorBench 3.1 为 AI 编码代理提供真实世界性能基准

CursorBench 3.1 使用来自实际 Cursor 用户会话的模糊、多文件任务来评估 AI 代理。与合成基准不同,此评估侧重于模型在真实环境中处理代码库理解、错误查找、规划和代码审查的能力。主要目标是衡量代理在需要同时导航和编辑多个文件的任务上的表现。

性能与成本排名

根据 CursorBench 3.1 的结果,Fable 5 Max 以 72.9% 的得分位居榜首,其次是 Fable 5 Extra High(72.0%)和 Fable 5 High(70.6%)。然而,这些高分伴随着显著的成本影响,Fable 5 Max 的每任务平均成本最高,为 $18.02。

基准的关键性能层级包括:

  • 顶级层(70%+): Fable 5(Max、Extra High、High、Medium)。
  • 中等层(60-69%): Opus 4.7 Max、GPT-5.5 Extra High、Fable 5 Low、Opus 4.8 Max 和 Composer 2.5。
  • 低层(<60%): Sonnet 5、Opus 4.8(High/Medium/Low)和 Gemini 3.5 Flash。

值得注意的是,Composer 2.5 以 63.2% 的得分排名第 9,同时保持每任务成本最低之一,仅 $0.55。

从 CursorBench 3.0 的演进

CursorBench 3.1 在初始 3.0 版本的基础上引入了若干关键更新,以更好地反映专业软件工程工作流:

  • 任务范围扩展: 3.0 版主要聚焦于编辑、重构和 bugfix 问题,3.1 版新增了专注于代码库理解、规划和代码审查的问题。
  • 评分细化: 基准对编辑任务实施了改进的评分标准,以确保更准确的性能衡量。

社区批评与基准有效性

CursorBench 3.1 的发布在开发者中引发了关于内部基准与第三方评估有效性的激烈争论。

与外部基准的差异

多位用户指出 CursorBench 结果与独立测试之间存在明显差距。例如,Composer 2.5 在 Cursor 的内部基准中表现竞争力,但其他评估显示差距更大:

"Artificial Analysis' testing shows Composer 2.5 to be pretty far behind... You look at the DeepSWE benchmark... and GPT-5.5 xhigh gets a 64, Opus 4.8 max gets 56, and Cursor 2.5 gets 16."

对偏见和实用性的担忧

批评者认为,由公司自行创建的基准来评估其自家模型(Composer 2.5)本质上存在偏见。一些开发者建议唯一可靠的指标是模型在用户特定日常工作负载上的表现:

"The independent benchmarks are probably part of training data now and the models are pattern-matching against them all the time. The final test of a model... is how good it works FOR YOU."

针对特定模型的观察

用户分享了与量化数据相矛盾的定性体验:

  • GPT-5.5 Extra High: 因速度快和适应性思考受到赞扬,但相较于 Opus,受限于较小的上下文窗口。
  • Opus 4.8 Max: 被描述为在规划和审查方面强大,但可能较慢,有时会“无谓地啃所有东西”。
  • Fable 5: 以强大的适应性思考著称,但若未密切监控,可能会在实现中留下“巨大、危险的漏洞”。
  • Composer 2.5: 有用户认为它缺乏前沿模型的关键推理和思考能力,称其为更适合执行已有计划而非创建计划的“工作马”。

Sources