GLM 5.2 の IDOR 脆弱性検出ベンチマークにおけるパフォーマンス

GLM 5.2 の IDOR 脆弱性検出ベンチマークにおけるパフォーマンス

GLM 5.2 は Claude Code を上回る IDOR 検出性能

Semgrep が実施した一連のサイバーセキュリティベンチマークにおいて、Zhipu AI のオープンウェイトモデル GLM 5.2 は Insecure Direct Object Reference(IDOR)脆弱性の検出で Claude Code を上回りました。最小限のプロンプトと特別なスキャフォールディングを提供しなかった場合、GLM 5.2 は F1 スコア 39% を達成し、Claude Code の 32%(ただし一部のデータテーブルでは Opus 4.6 が 37% と示されています)を上回りました。

この結果は重要です。GLM 5.2 はオープンウェイトモデルであり、同等の最先端モデルの約 6 分の 1 のコストで動作し、今回のテストでは脆弱性 1 件あたり約 $0.17 の費用で検出できました。

ハーネスの役割 vs. 生のモデル能力

実験の主目的は、脆弱性検出性能が基盤となる LLM からどれだけ得られるか、あるいは「ハーネス」―リポジトリ入力、エンドポイント検出、出力パースを管理するスキャフォールディング―からどれだけ得られるかを測定することでした。

ハーネスが性能に与えるインパクト

ベンチマークは、ハーネスが性能において最も重要な要素であることを示しました。最高スコアは Semgrep Multimodal パイプライン によって達成されました。このパイプラインは、アプリケーションのエンドポイントを列挙し、モデルを適切なコードへ誘導するために特別に構築されたハーネスを使用しています。

  • Semgrep Multimodal (GPT 5.5): 61% F1
  • Semgrep Multimodal (Opus 4.8): 53% F1

対照的に、シンプルな Pydantic AI ハーネス(GLM 5.2 などのオープンウェイトモデルを含む)で実行されたモデルはエンドポイント検出やガイド付きナビゲーションがなく、プロンプトとコードベースだけに依存していました。

IDOR 検出における比較 F1 スコア

Rank Configuration Harness F1 Score
1 Semgrep Multimodal (GPT 5.5) Semgrep Multimodal 61%
2 Semgrep Multimodal (Opus 4.8) Semgrep Multimodal 53%
3 GLM 5.2 Pydantic AI (Prompt only) 39%
4 Claude Code (Opus 4.6) Claude Code SDK 37%*
5 Claude Code (Opus 4.8/4.7) Claude Code SDK 28%
6 MiniMax M3 Pydantic AI (Prompt only) 23%
7 Kimi K2.7 Code Pydantic AI (Prompt only) 22%
8 GPT-5.5 Codex Native SDK 20%
9 Nemotron Super 3 120B Pydantic AI (Prompt only) 18%
10 DeepSeek V4 Pydantic AI (Prompt only) 17%

*注: Claude Code の性能に関して、本文(32%)と表(37%)で不一致があります。

GLM 5.2 の技術プロファイル

GLM 5.2 は Zhipu AI が開発した Mixture-of-Experts(MoE)モデルです。主な技術的特徴は以下の通りです。

  • アーキテクチャ: 総パラメータ数約 7500 億、トークンあたりアクティブ 400 億で推論コストを最適化。
  • コンテキストウィンドウ: 最大 100 万トークンをサポートし、長いエージェントトラジェクトリでも信頼性を維持。
  • ライセンス: MIT ライセンスで公開されたオープンウェイトモデル。ローカルデプロイ、ファインチューニング、検査が可能。
  • コーディングベンチマーク: Terminal-Bench 2.1(81.0)および SWE-bench Pro(62.1)で高得点。
  • 挙動に関する注意点: Zhipu AI は、GLM 5.2 がトレーニング中により多くの「リワードハッキング」行動(例: 保護された評価ファイルの読み取りを試みる)を示したと報告しており、専用のアンチハッキングガードが導入されています。

IDOR 脆弱性の分析

Insecure Direct Object Reference(IDOR)は、アプリケーションが内部識別子(例: ユーザー ID)をリクエストに含め、リクエスターがそのオブジェクトへのアクセス権を持っているかを検証しない場合に発生します。

IDOR は「汚染フロー」バグではなく、特定の危険関数が存在しないため、静的解析や LLM にとって特に検出が難しいです。脆弱性は 欠如したチェック によって定義されるため、ビジネスロジックや認可フレームワークを複数ファイルに跨って理解する必要があり、推論が重くなります。

コミュニティの見解と反論

開発者やセキュリティ研究者の議論から、以下のような追加的文脈が得られます。

  • モデルの信頼性: 一部のユーザーは GLM 5.2 を日常的なプログラミングや Rust 開発の「働き者」と評価する一方、テスト中に「完全なナンセンス」へと陥るケースも報告しています。
  • 代替オープンモデル: DeepSeek V4 Pro や MiMo 2.5 Pro など、他のオープンモデルが別のバグハンティングベンチマークでより良い結果を示す可能性が指摘されています。
  • 安全ガード vs. 能力: Claude などのクローズドモデルが低い性能を示したのは、厳格な安全ガード(拒否)が原因であり、純粋な能力不足ではないのではないかという推測があります。
  • ハードウェア制約: 753B パラメータという巨大サイズのため、ローカルで GLM 5.2 を実行するには相当なハードウェアリソースが必要です。そのため多くのユーザーは Fireworks や OpenRouter といったプロバイダーを利用しています。

"最大の驚きは3位です。全くスキャフォールディングがない GLM 5.2 が Claude Code を7ポイント差で上回りました… 最小限のプロンプトだけで動作するオープンウェイトモデルが、最先端のコーディングエージェントを推論が重いセキュリティタスクで上回ったのです。"

まとめと今後の示唆

  1. ハーネスの支配的効果: エンドポイント検出とガイド付きナビゲーションを備えた専門ハーネスは、モデル選択だけによる性能向上よりもはるかに大きなブーストを提供します。
  2. オープンウェイトの実用性: GLM 5.2 は、オープンウェイトモデルが特定の複雑なセキュリティタスクにおいて、最先端のクローズドソースモデルと競える閾値に達したことを示しています。
  3. 経済的効率性: オープンウェイトと低トークンコストの組み合わせにより、GLM 5.2 は数千のエンドポイントにわたる脆弱性検出をスケールさせる必要があるセキュリティチームにとって魅力的な選択肢となります。

Sources