GLM-5.2 vs Claude Opus 4.8:成本‑效益开放模型 vs 更快闭源模型的 3D WebGL 游戏测试

GLM-5.2 vs Claude Opus 4.8:成本‑效益开放模型 vs 更快闭源模型的 3D WebGL 游戏测试

TL;DR

GLM-5.2 能以约 Claude Opus 4.8 五分之一的价格生成完整的 3D WebGL 平台游戏,但 Opus 用时只有前者的一半,并且因为能够自行验证截图,交付的游戏在视觉上更干净、功能更完整。


对决测试概览

  • 任务:一次性提示从零开始用原始 WebGL(不使用引擎或 3D 库)构建 3D 平台游戏。两位代理均使用相同的 Kenney CC0 资源。
  • 模型:Z.ai GLM‑5.2(仅文本、开放权重、1 M‑token 上下文) vs. Anthropic Claude Opus 4.8(多模态、闭源)。
  • 指标
    指标 GLM‑5.2 (Pi/OpenRouter) Opus (Claude Code)
    实际构建时间 1 h 10 m 40 s 33 m 30 s
    输出 token 数 131 k 216 k
    峰值上下文使用率 1 M 的 16 % 1 M 的 19 %
    工具调用次数 128 153
    成本 $5.39(实际计费) ~​$21.92(标价)
  • 结果:Opus 更快且产出更干净的游戏;GLM‑5.2 更便宜但更粗糙。

模型背景

GLM‑5.2

  • 来自 Z.ai 的开放权重模型,采用 MIT 许可证发布。
  • 仅文本;无法处理图像。
  • 1 M‑token 上下文窗口;提供两种“思考”层级(High、Max)。
  • 每 1 M token 定价:输入 $1.4,缓存读取 $0.26,输出 $4.4——约为 Opus 的五分之一。
  • 权重可在 Hugging Face 与 ModelScope 获取,可使用 vLLM、SGLang 或 Transformers 本地运行。

Claude Opus 4.8

  • Anthropic 的闭源多模态模型。
  • 支持图像输入,能够进行视觉自检。
  • 每 1 M token 定价:输入 $5,缓存读取 $0.50,输出 $25。
  • 以更高成本提供更精致的输出。

详细测试发现

构建时间与成本

Opus 在 33 分钟 内完成 WebGL 项目,估计费用约 $21.92。GLM‑5.2 用时 1 小时 11 分钟,费用 $5.39。时光流(见文章)显示 Opus 在 GLM‑5.2 运行时间的大约一半时就已完成。

游戏质量

GLM‑5.2

  • 视觉粗糙;角色呈灰色且缺少纹理。
  • 尖刺障碍 不会 致命。
  • 达到旗帜时未触发胜利条件。
  • 弹簧机制正常工作。

Opus

  • 纹理干净,光照恰当,动画流畅。
  • 尖刺障碍会致命(虽放在了非路径位置)。
  • 达到旗帜时会激活胜利条件。
  • 小的边缘案例错误:允许在薄空气上站立的“猫步时间”,以及旗帜前提前触发的胜利。

自我验证

  • Opus 捕获截图,检查后在完成前去除了残留的调试覆盖层。
  • GLM‑5.2 无法查看图像;它尝试了数值像素抽样的技巧,错误地认为游戏已正确,即使纹理缺失且仍有覆盖层。

"final_start/overview/flag.png 分析颜色:草绿、土棕、金币金、旗帜红、角色蓝色、半朗伯光照、无黑色" – GLM‑5.2 的自检未发现视觉缺陷。


基准对比

基准 GLM‑5.2 Opus 4.8
推理
HLE (含工具) 54.7 57.9*
AIME 2026 99.2 95.7
GPQA‑Diamond 91.2 93.6
IMOAnswerBench 91.0 83.5
编码
SWE‑bench Pro 62.1 69.2
NL2Repo 48.9 69.7
DeepSWE 46.2 58
ProgramBench 63.7 71.9
Terminal Bench 2.1 (最佳 harness) 82.7 78.9
SWE‑Marathon 13.0 26.0
代理
MCP‑Atlas (public) 76.8 77.8
Tool‑Decathlon 48.2 59.9

GLM‑5.2 在多个推理与编码任务上(如 AIME、IMOAnswerBench、NL2Repo)领先于开放权重模型,但在大多数编码和代理基准上仍落后于 Opus。


社区反馈

  • Simon Willison 称 GLM‑5.2 为 “可能是最强大的仅文本开放权重 LLM”,因为它生成了一个完美的自行车鹈鹕动画 SVG。
  • Artificial Analysis 将 GLM‑5.2 排在其 Intelligence Index(得分 51)上的开放权重模型首位,但指出其 token 消耗较高(约每任务 43 k 输出 token)。
  • Nathan Lambert 强调开放模型与闭源模型之间的差距正在缩小,提到 GLM‑5.2 在代理性能上相对 Gemini 表现出色。

实际建议

  1. 成本 vs. 速度 – 若预算紧张且任务主要是逻辑或文本驱动,GLM‑5.2 提供了极具吸引力的价格。
  2. 视觉验证重要 – 对于产生视觉产物的任务,多模态模型如 Opus 能捕捉文本模型遗漏的错误。
  3. 开放权重优势 – GLM‑5.2 的 MIT 许可证权重可自行长期托管,避免供应商锁定。
  4. 混合工作流 – 使用 GLM‑5.2 进行大批量、低成本生成,然后交给或使用多模态模型进行最终打磨和视觉 QA。

结论

GLM‑5.2 证明开放权重模型如今能够以远低于领先闭源模型的成本完成宏大的多步骤编码任务。然而,Claude Opus 4.8 在速度、视觉保真度以及自检能力上仍然更胜一筹。若成本与开放性是首要考量,选择 GLM‑5.2;若正确性、精致度以及视觉判断值得更高费用,则选用 Opus。

Sources