GLM 5.2 发布说明与性能分析

GLM 5.2 是一款与前沿闭源 LLM 竞争的高性能开源权重模型

Z.AI 已发布了 GLM 5.2 的权重，提供了完整版和 FP8 版本。该模型专门为长程任务设计，其性能足以媲美或超越多个闭源模型，特别是在智能体编程（agentic coding）和前端设计方面。

基准测试性能与智能体能力

GLM 5.2 相比其前代产品 GLM 5.1 有显著提升，尤其是在智能体编程方面。

关键基准测试洞察

智能体编程： 与 GLM 5.1 相比，该模型在智能体编程方面的性能有了大幅提升。在 Deep SWE 基准测试（SWE-Bench Pro 的替代方案）中具有极强的竞争力。
通用智能： 虽然在某些基准测试中落后于 Anthropic 的 Opus 4.8 和 OpenAI 的模型，但在利用工具时，它正在缩小差距。
Humanity's Last Exam： 在不使用工具的情况下，GLM 5.2 的表现逊于 Opus 4.8，这可能是由于模型规模的限制。

通过 Artificial Analysis 进行第三方验证

根据 Artificial Analysis 的基准测试，GLM 5.2 相比 GLM 5.1 在能力上实现了巨大的飞跃。它超越了包括 DeepSeek Pro、Qwen 3.7 Max 和 MiniMax M3 在内的多个其他开源和闭源模型，甚至在某些指标上击败了 GPT-5.5。

Token 使用与推理

Artificial Analysis 的数据表明，GLM 5.2 高度依赖长思维链（CoT）。在推理过程中，它输出的 token 数量比 DeepSeek、Kimi K 2.6 和 Fable 更多。虽然以 OpenAI 为首的行业趋势是倾向于在保持高智能的同时减少 token 输出，但 GLM 5.2 通过增加 token 使用量来实现其高性能。

专业优势：设计与长篇内容生成

GLM 5.2 在前端开发和长篇内容生成方面表现出色，在 Design Arena 中排名很高。

前端设计： 该模型可以根据简单的提示词生成带有动画和图像的复杂首页，其生成效果可与“Anthropic 风格”相媲美。
长篇写作： 在测试中，该模型成功生成了超过 5,000 个 token 的内容，而许多其他模型通常会将输出截断在 500 字左右。
速度： 该模型利用多 token 预测技术，有助于提高 token 生成速度，通过 OpenRouter API 调用时，平均速度在每秒 36 到 40 个 token 之间。

部署与成本效率

由于权重是开源的，用户可以选择自己的服务提供商，以避免将数据发送到特定区域或数据中心。

定价： 目前各供应商的定价约为每百万输入 token 1.40 美元，每百万输出 token 4.40 美元。
价值主张： 这种定价使得 GLM 5.2 比目前的闭源前沿模型便宜得多，在许多使用场景下，有可能取代 Claude Sonnet 或 Gemini Flash 等模型。

GLM 5.2 发布说明与性能分析

GLM 5.2 发布说明与性能分析

GLM 5.2 是一款与前沿闭源 LLM 竞争的高性能开源权重模型

基准测试性能与智能体能力

关键基准测试洞察

通过 Artificial Analysis 进行第三方验证

Token 使用与推理

专业优势：设计与长篇内容生成

部署与成本效率

Sources