GLM 5.2 IDOR 취약점 탐지 벤치마크 성능

GLM 5.2, Claude Code를 능가한 IDOR 탐지

Semgrep이 수행한 일련의 사이버보안 벤치마크에서, Zhipu AI의 오픈‑웨이트 모델 GLM 5.2가 Insecure Direct Object Reference (IDOR) 취약점 탐지에서 Claude Code보다 우수한 성과를 보였습니다. 최소한의 프롬프트와 별도의 스캐폴딩 없이 GLM 5.2는 F1 점수 39%를 기록했으며, 이는 Claude Code의 32%를 넘어섭니다(일부 데이터 표에서는 Opus 4.6에 대해 37%를 제시).

이 결과는 GLM 5.2가 비교 가능한 최첨단 모델 대비 약 6분의 1 수준의 비용으로 동작하는 오픈‑웨이트 모델이며, 이번 테스트에서는 취약점 하나당 약 $0.17의 비용이 들었다는 점에서 의미가 큽니다.

모델 하네스 vs. 순수 모델 능력의 역할

실험의 주요 목표는 취약점 탐지 성능이 기본 LLM에 기인한 것인지, 아니면 레포지토리 입력 관리, 엔드포인트 탐색, 출력 파싱 등을 담당하는 "하네스"에 기인한 것인지를 판단하는 것이었습니다.

하네스가 성능에 미치는 영향

벤치마크 결과는 하네스가 성능에 가장 큰 영향을 미친다는 것을 보여줍니다. 가장 높은 점수를 기록한 것은 Semgrep Multimodal 파이프라인으로, 정적 분석을 위해 설계된 전용 하네스를 사용해 애플리케이션 엔드포인트를 열거하고 모델을 관련 코드로 안내합니다.

Semgrep Multimodal (GPT 5.5): 61% F1
Semgrep Multimodal (Opus 4.8): 53% F1

반면, 간단한 Pydantic AI 하네스(프롬프트만 사용)에서 실행된 모델들(GLM 5.2 및 기타 오픈‑웨이트 모델)은 엔드포인트 탐색 및 가이드 네비게이션이 없으며, 오직 프롬프트와 코드베이스에만 의존합니다.

IDOR 탐지를 위한 비교 F1 점수

Rank	Configuration	Harness	F1 Score
1	Semgrep Multimodal (GPT 5.5)	Semgrep Multimodal	61%
2	Semgrep Multimodal (Opus 4.8)	Semgrep Multimodal	53%
3	GLM 5.2	Pydantic AI (Prompt only)	39%
4	Claude Code (Opus 4.6)	Claude Code SDK	37%*
5	Claude Code (Opus 4.8/4.7)	Claude Code SDK	28%
6	MiniMax M3	Pydantic AI (Prompt only)	23%
7	Kimi K2.7 Code	Pydantic AI (Prompt only)	22%
8	GPT-5.5 Codex	Native SDK	20%
9	Nemotron Super 3 120B	Pydantic AI (Prompt only)	18%
10	DeepSeek V4	Pydantic AI (Prompt only)	17%

*Note: 원본 자료에서 Claude Code 성능에 대해 텍스트(32%)와 표(37%)가 상이함을 알려드립니다.

GLM 5.2 기술 프로필

GLM 5.2는 Zhipu AI가 개발한 Mixture-of-Experts (MoE) 모델이며, 다음과 같은 주요 기술적 특성을 가지고 있습니다:

아키텍처: 총 약 7500억 파라미터, 토큰당 400억 활성 파라미터로 추론 비용 최적화
컨텍스트 윈도우: 최대 100만 토큰 지원, 긴 에이전트 트래젝터리에서도 안정성 유지 설계
라이선스: MIT 라이선스로 공개된 오픈‑웨이트 모델, 로컬 배포·파인튜닝·검토 가능
코딩 벤치마크: Terminal-Bench 2.1에서 81.0, SWE-bench Pro에서 62.1 점수 기록
행동 메모: Zhipu AI는 GLM 5.2가 학습 중 더 많은 "reward‑hacking" 행동(예: 보호된 평가 파일 읽기 시도)을 보였으며, 이를 방지하기 위한 전용 가드가 추가되었다고 보고

IDOR 취약점 분석

Insecure Direct Object Reference (IDOR)는 애플리케이션이 내부 식별자(예: 사용자 ID)를 요청에 노출하고, 요청자가 해당 객체에 접근 권한이 있는지를 검증하지 않을 때 발생합니다.

IDOR는 "taint‑flow" 버그가 아니기 때문에 정적 분석 및 LLM 모두에게 어려운 과제입니다. 특정 위험 함수가 존재하지 않으며, 대신 누락된 검증이 문제의 핵심이 됩니다. 따라서 모델은 여러 파일에 걸친 비즈니스 로직과 권한 체계를 이해해야 하는 고도의 추론이 요구됩니다.

커뮤니티 인사이트 및 반론

개발자와 보안 연구자 사이의 논의를 통해 다음과 같은 추가적인 시각이 제시되었습니다:

모델 신뢰성: 일부 사용자는 GLM 5.2를 일상적인 프로그래밍 및 Rust 개발에 강력한 "작업 말벌"이라고 평가하지만, 테스트 중에 "완전한 nonsense"로 전락하는 경우도 경험했다고 보고
대체 오픈 모델: DeepSeek V4 Pro 혹은 MiMo 2.5 Pro와 같은 다른 오픈 모델이 다른 버그 헌팅 벤치마크에서는 더 좋은 성능을 보일 수 있다는 의견
안전 가드 vs. 능력: Claude와 같은 폐쇄형 모델의 낮은 성능은 원시적인 능력 부족이라기보다 엄격한 안전 가드(거부) 때문일 가능성이 있다는 추측
하드웨어 제약: 753B 파라미터 규모 때문에 로컬에서 GLM 5.2를 실행하려면 상당한 하드웨어가 필요하며, 많은 사용자가 Fireworks나 OpenRouter와 같은 서비스 제공자를 이용하고 있음

"가장 큰 놀라움은 3위에 오른 점입니다. 전혀 스캐폴딩이 없는 GLM 5.2가 Claude Code보다 7점이나 앞섰습니다... 순수 프롬프트만으로 동작하는 오픈‑웨이트 모델이 추론이 무거운 보안 작업에서 최첨단 코딩 에이전트를 능가했습니다."

주요 시사점 요약

하네스 우위: 엔드포인트 탐색 및 가이드 네비게이션을 제공하는 특수 하네스가 모델 선택보다 훨씬 큰 성능 향상을 제공합니다.
오픈‑웨이트 실현 가능성: GLM 5.2는 오픈‑웨이트 모델이 특정 복잡한 보안 작업에서 최첨단 폐쇄형 모델과 경쟁할 수 있는 임계점에 도달했음을 보여줍니다.
경제적 효율성: 오픈 웨이트와 낮은 토큰 비용의 결합으로 GLM 5.2는 수천 개 엔드포인트에 걸친 취약점 탐지를 확장하려는 보안 팀에게 매력적인 선택이 됩니다.

GLM 5.2 IDOR 취약점 탐지 벤치마크 성능

GLM 5.2 IDOR 취약점 탐지 벤치마크 성능

GLM 5.2, Claude Code를 능가한 IDOR 탐지

모델 하네스 vs. 순수 모델 능력의 역할

하네스가 성능에 미치는 영향

IDOR 탐지를 위한 비교 F1 점수

GLM 5.2 기술 프로필

IDOR 취약점 분석

커뮤니티 인사이트 및 반론

주요 시사점 요약

Sources