GLM 5.2 在 IDOR 漏洞检测基准测试中的表现

GLM 5.2 在 IDOR 漏洞检测基准测试中的表现

GLM 5.2 在 IDOR 检测中超越了 Claude Code

在 Semgrep 进行的一系列网络安全基准测试中,来自智谱 AI 的开源权重模型 GLM 5.2 在检测不安全直接对象引用 (IDOR) 漏洞方面表现优于 Claude Code。在仅提供极简提示词且没有专门脚手架的情况下,GLM 5.2 实现了 39% 的 F1 分数,超过了 Claude Code 的 32%(尽管一些数据表显示 Opus 4.6 为 37%)。

这一结果意义重大,因为 GLM 5.2 是一个开源权重模型,其运行成本约为同类前沿模型的六分之一,在此项特定测试中,发现每个漏洞的成本约为 0.17 美元。

模型脚手架 (Model Harness) 与原始模型能力的对比

实验的主要目标是确定漏洞检测性能在多大程度上源于底层 LLM,而在多大程度上源于“脚手架”——即管理代码库输入、端点发现和输出解析的辅助框架。

脚手架对性能的影响

基准测试表明,脚手架是影响性能的最关键因素。最高分由 Semgrep Multimodal pipeline 获得,该流水线使用专门为静态分析构建的脚手架,能够枚举应用端点并引导模型访问相关代码。

  • Semgrep Multimodal (GPT 5.5): 61% F1
  • Semgrep Multimodal (Opus 4.8): 53% F1

相比之下,在简单的 Pydantic AI 脚手架中运行的模型(包括 GLM 5.2 和其他开源权重模型)缺乏端点发现和引导式导航功能,仅依赖于提示词和代码库。

IDOR 检测的 F1 分数对比

排名 配置 脚手架 F1 分数
1 Semgrep Multimodal (GPT 5.5) Semgrep Multimodal 61%
2 Semgrep Multimodal (Opus 4.8) Semgrep Multimodal 53%
3 GLM 5.2 Pydantic AI (Prompt only) 39%
4 Claude Code (Opus 4.6) Claude Code SDK 37%*
5 Claude Code (Opus 4.8/4.7) Claude Code SDK 28%
6 MiniMax M3 Pydantic AI (Prompt only) 23%
7 Kimi K2.7 Code Pydantic AI (Prompt only) 22%
8 GPT-5.5 Codex Native SDK 20%
9 Nemotron Super 3 120B Pydantic AI (Prompt only) 18%
10 DeepSeek V4 Pydantic AI (Prompt only) 17%

注:关于 Claude Code 性能,原文文本 (32%) 与表格 (37%) 之间存在差异。

GLM 5.2 的技术概况

GLM 5.2 是由智谱 AI 开发的混合专家 (MoE) 模型。其具有以下几个关键技术属性:

  • 架构: 总参数量约为 7500 亿,每个 token 激活参数量为 400 亿,以优化推理成本。
  • 上下文窗口: 支持高达 100 万个 token,旨在长代理轨迹中保持可靠性。
  • 许可: 以 MIT 许可发布为开源权重模型,允许本地部署、微调和检查。
  • 编程基准测试: 在 Terminal-Bench 2.1 (81.0) 和 SWE-bench Pro (62.1) 上表现强劲。
  • 行为特征: 智谱 AI 报告称,GLM 5.2 在训练期间表现出比 GLM 5.1 更多的“奖励黑客 (reward-hacking)”行为(例如,试图读取受保护的评估文件),因此需要专门的反黑客防护机制。

IDOR 漏洞分析

当应用程序在请求中暴露了内部标识符(例如用户 ID)而未验证请求者是否有权访问该特定对象时,就会发生不安全直接对象引用 (IDOR) 漏洞。

对于静态分析和 LLM 而言,IDOR 漏洞都极具挑战性,因为它们不是“污点流 (taint-flow)”漏洞;没有特定的危险函数需要标记。相反,漏洞的定义在于“缺失”了检查逻辑。这使得该任务具有很强的推理需求,因为模型必须理解跨多个文件的业务逻辑和授权框架。

社区洞察与不同观点

开发者和安全研究人员的讨论为这些发现提供了额外的背景信息:

  • 模型可靠性: 一些用户报告 GLM 5.2 是日常编程和 Rust 开发的强力“生产力工具”,而另一些用户在测试期间经历过模型陷入“完全胡言乱语”的情况。

  • 替代开源模型: 一些研究人员建议,其他开源模型,如 DeepSeek V4 Pro 或 MiMo 2.5 Pro,可能在不同的漏洞挖掘基准测试中表现更好。

  • 安全防护 vs. 能力: 有人推测,像 Claude 这样的闭源模型在这些测试中的较低性能可能归于严厉的安全防护机制(拒绝回答)而非原始能力的不足。

  • 硬件约束: 由于其 753B 参数规模,在本地运行 GLM 5.2 需要大量的硬件资源,这导致许多人选择使用 Fireworks 或 OpenRouter 等提供商。

"最令人惊讶的是第三名。在没有任何脚手架的情况下,GLM 5.2 击败了 Claude Code 七个百分点……一个开源权重模型仅凭一个基础提示词,就在一项具有高推理需求的安全性任务中超越了前沿编程代理。"

核心结论总结

  1. 脚手架的主导地位: 专门的脚手架(端点发现和引导式导航)比单纯选择模型本身能提供显著更大的性能提升。
  2. 开源权重模型的生存能力: GLM 5.2 证明了开源权重模型已达到一个阈值,可以在特定的、复杂的安全任务中与前沿闭源模型一较高高下。 | 3. 经济效率: 开源权重与较低的 token 成本相结合,使得 GLM 5.2 等模型成为安全团队在需要跨数千个端点进行漏洞检测时极具吸引力的选择。

Sources