CursorBench 3.1: 실제 작업에서 AI 코딩 에이전트 평가

CursorBench 3.1은 AI 코딩 에이전트를 위한 실제 성능 기준을 제공합니다

CursorBench 3.1은 실제 Cursor 사용자 세션에서 파생된 모호하고 다중 파일 작업을 사용해 AI 에이전트를 평가합니다. 합성 벤치마크와 달리, 이번 평가는 모델이 현실적인 환경에서 코드베이스 이해, 버그 찾기, 계획 수립 및 코드 리뷰를 처리하는 능력에 초점을 맞춥니다. 주요 목표는 에이전트가 여러 파일을 동시에 탐색하고 편집해야 하는 작업을 얼마나 잘 수행하는지를 측정하는 것입니다.

성능 및 비용 순위

CursorBench 3.1 결과에 따르면, Fable 5 Max가 72.9% 점수로 가장 높은 성능을 보였으며, 그 뒤를 Fable 5 Extra High(72.0%)와 Fable 5 High(70.6%)가 잇습니다. 그러나 이러한 높은 점수는 비용 측면에서도 큰 영향을 미치는데, Fable 5 Max는 작업당 평균 비용이 $18.02로 가장 높습니다.

벤치마크에서 확인된 주요 성능 계층은 다음과 같습니다:

상위 계층 (70% 이상): Fable 5 (Max, Extra High, High, Medium).
중간 계층 (60-69%): Opus 4.7 Max, GPT-5.5 Extra High, Fable 5 Low, Opus 4.8 Max, 그리고 Composer 2.5.
하위 계층 (<60%): Sonnet 5, Opus 4.8 (High/Medium/Low), 그리고 Gemini 3.5 Flash.

특히, Composer 2.5는 63.2% 점수로 9위를 차지했으며, 작업당 $0.55라는 가장 낮은 비용 중 하나를 유지하고 있습니다.

CursorBench 3.0에서의 진화

CursorBench 3.1은 초기 3.0 버전에 비해 전문 소프트웨어 엔지니어링 워크플로우를 더 잘 반영하기 위해 여러 중요한 업데이트를 도입했습니다:

작업 범위 확대: 3.0 버전이 주로 편집, 리팩터링 및 버그 수정 문제에 초점을 맞췄다면, 3.1은 코드베이스 이해, 계획 수립 및 코드 리뷰에 특화된 문제를 추가했습니다.
채점 기준 정교화: 편집 작업에 대한 채점 기준을 개선하여 성능 측정의 정확성을 높였습니다.

커뮤니티 비판 및 벤치마크 타당성

CursorBench 3.1의 출시로 개발자들 사이에서 내부 벤치마크와 제3자 평가의 타당성에 대한 큰 논쟁이 일었습니다.

외부 벤치마크와의 차이점

여러 사용자는 CursorBench 결과와 독립 테스트 간의 큰 차이를 지적했습니다. 예를 들어, Composer 2.5는 Cursor 내부 벤치마크에서는 경쟁력을 보이지만, 다른 평가에서는 더 큰 격차가 나타납니다:

"Artificial Analysis' 테스트에 따르면 Composer 2.5는 꽤 뒤처져 있습니다... DeepSWE 벤치마크를 보면... GPT-5.5 xhigh는 64점, Opus 4.8 max는 56점, 그리고 Cursor 2.5는 16점을 받았습니다."

편향 및 유용성에 대한 우려

비평가들은 자사 모델(Composer 2.5)을 평가하기 위해 만든 벤치마크가 본질적으로 편향되어 있다고 주장합니다. 일부 개발자는 모델의 신뢰할 수 있는 지표는 사용자의 특정 일일 작업량에 대한 성능이라고 제안합니다:

"독립 벤치마크는 아마도 이제는 학습 데이터의 일부가 되었고 모델은 항상 그것에 대해 패턴 매칭을 하고 있습니다. 모델의 최종 시험은... 당신을 위해 얼마나 잘 작동하느냐입니다."

모델별 관찰

사용자들은 정량적 데이터와 대비되는 정성적 경험을 공유했습니다:

GPT-5.5 Extra High: 속도와 적응적 사고가 뛰어나지만 Opus에 비해 컨텍스트 창이 작아 제한적이라는 평가.
Opus 4.8 Max: 계획 및 리뷰에 강력하지만 때때로 "불필요하게 모든 것을 씹는" 느린 속도가 단점이라는 의견.
Fable 5: 적응적 사고가 강점이지만, 면밀히 감시하지 않으면 구현에 "크고 위험한 구멍"을 남길 수 있다는 비판.
Composer 2.5: 일부 사용자는 최첨단 모델의 비판적 추론 및 사고 능력이 부족하다고 느끼며, 기존 계획을 실행하는 데 더 적합한 "노동력"이라고 묘사했습니다.

요약: CursorBench 3.1은 실제 Cursor 세션에서 나온 모호하고 다중 파일 작업을 통해 AI 코딩 에이전트를 평가하며, 현재 성능 면에서는 Fable 5 Max가 선두를 달리고 있습니다.

제목: CursorBench 3.1: 실제 작업에서 AI 코딩 에이전트 평가

CursorBench 3.1: 실제 작업에서 AI 코딩 에이전트 평가

CursorBench 3.1: 실제 작업에서 AI 코딩 에이전트 평가

CursorBench 3.1은 AI 코딩 에이전트를 위한 실제 성능 기준을 제공합니다

성능 및 비용 순위

CursorBench 3.0에서의 진화

커뮤니티 비판 및 벤치마크 타당성

외부 벤치마크와의 차이점

편향 및 유용성에 대한 우려

모델별 관찰

Sources