GLM 5.2 发布说明与性能分析

GLM 5.2 发布说明与性能分析

GLM 5.2 是一款与前沿闭源 LLM 竞争的高性能开源权重模型

Z.AI 已发布了 GLM 5.2 的权重,提供了完整版和 FP8 版本。该模型专门为长程任务设计,其性能足以媲美或超越多个闭源模型,特别是在智能体编程(agentic coding)和前端设计方面。

基准测试性能与智能体能力

GLM 5.2 相比其前代产品 GLM 5.1 有显著提升,尤其是在智能体编程方面。

关键基准测试洞察

  • 智能体编程: 与 GLM 5.1 相比,该模型在智能体编程方面的性能有了大幅提升。在 Deep SWE 基准测试(SWE-Bench Pro 的替代方案)中具有极强的竞争力。
  • 通用智能: 虽然在某些基准测试中落后于 Anthropic 的 Opus 4.8 和 OpenAI 的模型,但在利用工具时,它正在缩小差距。
  • Humanity's Last Exam: 在不使用工具的情况下,GLM 5.2 的表现逊于 Opus 4.8,这可能是由于模型规模的限制。

通过 Artificial Analysis 进行第三方验证

根据 Artificial Analysis 的基准测试,GLM 5.2 相比 GLM 5.1 在能力上实现了巨大的飞跃。它超越了包括 DeepSeek Pro、Qwen 3.7 Max 和 MiniMax M3 在内的多个其他开源和闭源模型,甚至在某些指标上击败了 GPT-5.5。

Token 使用与推理

Artificial Analysis 的数据表明,GLM 5.2 高度依赖长思维链(CoT)。在推理过程中,它输出的 token 数量比 DeepSeek、Kimi K 2.6 和 Fable 更多。虽然以 OpenAI 为首的行业趋势是倾向于在保持高智能的同时减少 token 输出,但 GLM 5.2 通过增加 token 使用量来实现其高性能。

专业优势:设计与长篇内容生成

GLM 5.2 在前端开发和长篇内容生成方面表现出色,在 Design Arena 中排名很高。

  • 前端设计: 该模型可以根据简单的提示词生成带有动画和图像的复杂首页,其生成效果可与“Anthropic 风格”相媲美。
  • 长篇写作: 在测试中,该模型成功生成了超过 5,000 个 token 的内容,而许多其他模型通常会将输出截断在 500 字左右。
  • 速度: 该模型利用多 token 预测技术,有助于提高 token 生成速度,通过 OpenRouter API 调用时,平均速度在每秒 36 到 40 个 token 之间。

部署与成本效率

由于权重是开源的,用户可以选择自己的服务提供商,以避免将数据发送到特定区域或数据中心。

  • 定价: 目前各供应商的定价约为每百万输入 token 1.40 美元,每百万输出 token 4.40 美元。
  • 价值主张: 这种定价使得 GLM 5.2 比目前的闭源前沿模型便宜得多,在许多使用场景下,有可能取代 Claude Sonnet 或 Gemini Flash 等模型。

Sources