CursorBench 3.1: 実世界タスクにおける AI コーディングエージェントの評価

CursorBench 3.1 は AI コーディングエージェントの実世界パフォーマンスベースラインを提供します

CursorBench 3.1 は、実際の Cursor ユーザーセッションから派生した曖昧でマルチファイルのタスクを用いて AI エージェントを評価します。合成ベンチマークとは異なり、この評価はモデルがコードベースの理解、バグ検出、計画、コードレビューを現実的な環境で処理できる能力に焦点を当てています。主な目的は、複数ファイルを同時にナビゲート・編集する必要があるタスクにおいて、エージェントがどれだけうまく機能するかを測定することです。

パフォーマンスとコストのランキング

CursorBench 3.1 の結果によると、Fable 5 Max が 72.9% のスコアで最上位モデルとなり、次いで Fable 5 Extra High（72.0%）と Fable 5 High（70.6%）が続きます。ただし、これらの高スコアはコスト面で大きな影響を伴い、Fable 5 Max はタスクあたり平均コストが $18.02 と最も高くなっています。

ベンチマークからの主要なパフォーマンス層は次のとおりです：

トップ層（70% 以上）: Fable 5（Max、Extra High、High、Medium）。
中位層（60‑69%）: Opus 4.7 Max、GPT-5.5 Extra High、Fable 5 Low、Opus 4.8 Max、Composer 2.5。
下位層（60% 未満）: Sonnet 5、Opus 4.8（High/Medium/Low）、Gemini 3.5 Flash。

特に、Composer 2.5 は 9 位でスコア 63.2% を獲得し、タスクあたり $0.55 と最も低コストのモデルの一つでもあります。

CursorBench 3.0 からの進化

CursorBench 3.1 は、プロフェッショナルなソフトウェアエンジニアリングワークフローをより正確に反映するために、初期の 3.0 バージョンからいくつかの重要な更新を導入しています：

タスク範囲の拡大: バージョン 3.0 が主に edit、refactor、bugfix の問題に焦点を当てていたのに対し、3.1 ではコードベースの理解、計画、コードレビューに特化した問題が追加されました。
採点基準の洗練: edit タスクに対する採点基準が改善され、パフォーマンス測定の精度が向上しました。

コミュニティの批評とベンチマークの妥当性

CursorBench 3.1 のリリースは、内部ベンチマークの有効性とサードパーティ評価との間で開発者間に大きな議論を呼び起こしました。

外部ベンチマークとの不一致

複数のユーザーは、CursorBench の結果と独立したテストとの間に顕著な差があることを指摘しています。例えば、Composer 2.5 は Cursor の内部ベンチマークでは競争力があるものの、他の評価では大きなギャップが見られます：

"Artificial Analysis' のテストでは Composer 2.5 はかなり遅れを取っている… DeepSWE ベンチマークを見ると… GPT-5.5 xhigh が 64、Opus 4.8 max が 56、Cursor 2.5 が 16 になる。"

バイアスと有用性への懸念

批評家は、企業が自社モデル（Composer 2.5）を評価するために作成したベンチマークは本質的にバイアスがかかっていると主張しています。一部の開発者は、唯一信頼できる指標はユーザーの日々の作業負荷に対するモデルのパフォーマンスだと提案しています：

"独立ベンチマークはおそらく現在トレーニングデータの一部となっており、モデルは常にそれらにパターンマッチングしている。モデルの最終的なテスト…は、あなたにとってどれだけ役立つかだ。"

モデル別の観察結果

ユーザーは定量データとは対照的な定性的な経験を共有しています：

GPT-5.5 Extra High: 速度と適応的思考が評価されるが、Opus に比べてコンテキストウィンドウが小さい点が制限となる。
Opus 4.8 Max: 計画とレビューに強力だが、時に遅く「すべてを不必要に噛み砕く」ことがある。
Fable 5: 適応的思考が強いと評価される一方、注意深く監視しないと実装に「大きく危険な穴」を残す可能性が指摘される。
Composer 2.5: 一部ユーザーは、最先端モデルの批判的推論や思考能力が不足していると感じ、既存の計画を実行する「作業馬」的な役割に適していると述べている。

要約: CursorBench 3.1 は、実際の Cursor セッションからの曖昧でマルチファイルのタスクに対して AI コーディングエージェントを評価し、現在は Fable 5 Max がパフォーマンスでトップに立っています。

タイトル: CursorBench 3.1: 実世界タスクにおける AI コーディングエージェントの評価

CursorBench 3.1: 実世界タスクにおける AI コーディングエージェントの評価

CursorBench 3.1: 実世界タスクにおける AI コーディングエージェントの評価

CursorBench 3.1 は AI コーディングエージェントの実世界パフォーマンスベースラインを提供します

パフォーマンスとコストのランキング

CursorBench 3.0 からの進化

コミュニティの批評とベンチマークの妥当性

外部ベンチマークとの不一致

バイアスと有用性への懸念

モデル別の観察結果

Sources