CursorBench 3.1:在真實任務中評估 AI 程式編寫代理人

CursorBench 3.1:在真實任務中評估 AI 程式編寫代理人

CursorBench 3.1 為 AI 程式編寫代理人提供真實世界的效能基準

CursorBench 3.1 以實際 Cursor 使用者會話中衍生的模糊、多檔案任務來評估 AI 代理人。與合成基準不同,此評估著重於模型在真實環境中處理程式碼庫理解、錯誤偵測、規劃與程式碼審查的能力。主要目標是衡量代理人在需要同時瀏覽與編輯多個檔案的任務上的表現。

效能與成本排名

根據 CursorBench 3.1 的結果,Fable 5 Max 以 72.9% 的分數位居首位,緊隨其後的是 Fable 5 Extra High(72.0%)與 Fable 5 High(70.6%)。然而,這些高分伴隨著顯著的成本影響,因為 Fable 5 Max 的每任務平均成本最高,達到 $18.02。

基準的主要效能層級包括:

  • 頂級層 (70% 以上): Fable 5(Max、Extra High、High、Medium)。
  • 中等層 (60‑69%): Opus 4.7 Max、GPT-5.5 Extra High、Fable 5 Low、Opus 4.8 Max 與 Composer 2.5。
  • 較低層 (<60%): Sonnet 5、Opus 4.8(High/Medium/Low)以及 Gemini 3.5 Flash。

值得注意的是,Composer 2.5 以 63.2% 的分數排名第 9,且每任務成本僅 $0.55,是成本最低的模型之一。

從 CursorBench 3.0 的演進

CursorBench 3.1 在最初的 3.0 版基礎上加入了多項關鍵更新,以更貼近專業軟體工程工作流程:

  • 擴大任務範圍: 3.0 版主要聚焦於編輯、重構與除錯問題,3.1 版則新增了專注於程式碼庫理解、規劃與程式碼審查的問題。
  • 精緻評分: 基準實施了改進的編輯任務評分標準,以確保效能測量更為精確。

社群批評與基準有效性

CursorBench 3.1 的發布在開發者之間引發了關於內部基準與第三方評估有效性的激烈討論。

與外部基準的差異

多位使用者指出 CursorBench 結果與獨立測試之間存在明顯落差。例如,Composer 2.5 在 Cursor 內部基準中表現競爭力,但其他評估顯示差距更大:

"Artificial Analysis' testing shows Composer 2.5 to be pretty far behind... You look at the DeepSWE benchmark... and GPT-5.5 xhigh gets a 64, Opus 4.8 max gets 56, and Cursor 2.5 gets 16."

對偏見與實用性的擔憂

批評者認為,由公司自行建立的基準來評估自家模型(Composer 2.5)本身就帶有偏見。一些開發者認為唯一可靠的指標是模型在使用者每日工作負載上的表現:

"The independent benchmarks are probably part of training data now and the models are pattern-matching against them all the time. The final test of a model... is how good it works FOR YOU."

模型特定觀察

使用者分享了與量化數據相左的質性體驗:

  • GPT-5.5 Extra High: 以速度與適應性思考受到讚揚,但相較於 Opus,受限於較小的上下文窗口。
  • Opus 4.8 Max: 被描述為規劃與審查方面強大,但可能較慢,有時會「不必要地咀嚼所有內容」。
  • Fable 5: 以強大的適應性思考著稱,但若未嚴密監控,可能會在實作中留下「大且危險的漏洞」。
  • Composer 2.5: 有些使用者認為它缺乏前沿模型的關鍵推理與思考能力,將其形容為更適合執行既有計畫而非創造新計畫的「工作馬」。

Sources