GLM-5.2 vs Claude Opus 4.8:成本效益高的開放模型 vs 更快的封閉模型於 3D WebGL 遊戲測試

GLM-5.2 vs Claude Opus 4.8:成本效益高的開放模型 vs 更快的封閉模型於 3D WebGL 遊戲測試

TL;DR

GLM-5.2 能以大約 Claude Opus 4.8 五分之一的價格產生完整的 3D WebGL 平台遊戲,但 Opus 完成速度是前者的一半,且因能自行驗證螢幕截圖,交付的遊戲在視覺上更乾淨、功能更完整。


概覽對決測試

  • 任務:一次性提示從頭開始以原始 WebGL(不使用引擎或 3D 函式庫)建構 3D 平台遊戲。兩位代理人皆使用相同的 Kenney CC0 資源。
  • 模型:Z.ai GLM‑5.2(純文字、開放權重、1 M‑token 上下文) vs. Anthropic Claude Opus 4.8(多模態、封閉)。
  • 指標
    指標 GLM‑5.2(Pi/OpenRouter) Opus(Claude Code)
    實際建置時間 1 h 10 m 40 s 33 m 30 s
    輸出 token 數 131 k 216 k
    峰值上下文使用率 1 M 的 16 % 1 M 的 19 %
    工具呼叫次數 128 153
    成本 $5.39(實際計費) 約 $21.92(標價)
  • 結果:Opus 更快且產出較乾淨的遊戲;GLM‑5.2 成本較低但較粗糙。

模型背景

GLM‑5.2

  • 來自 Z.ai 的開放權重模型,採 MIT 授權釋出。
  • 純文字;無法處理圖像。
  • 1 M‑token 上下文窗口;具兩種「思考」層級(High、Max)。
  • 每 1 M token 定價:輸入 $1.4、快取讀取 $0.26、輸出 $4.4——約為 Opus 的五分之一。
  • 權重可於 Hugging Face 與 ModelScope 取得,並可使用 vLLM、SGLang 或 Transformers 本地執行。

Claude Opus 4.8

  • Anthropic 的封閉多模態模型。
  • 支援圖像輸入,能進行視覺自我檢查。
  • 每 1 M token 定價:輸入 $5、快取讀取 $0.50、輸出 $25。
  • 以較高成本提供更精緻的輸出。

詳細測試發現

建置時間與成本

Opus 在 33 分鐘 內完成 WebGL 專案,估計成本約 $21.92。GLM‑5.2 則花了 1 小時 11 分鐘,成本 $5.39。時光縮時(見文章)顯示 Opus 大約在 GLM‑5.2 執行過程的中途即完成。

遊戲品質

GLM‑5.2

  • 視覺粗糙;角色呈灰色且缺少材質。
  • 尖刺危險物 不會 殺死玩家。
  • 抵達旗幟時不會觸發勝利條件。
  • 彈簧機制運作正常。

Opus

  • 紋理乾淨、光照正確、動畫流暢。
  • 尖刺危險物會殺死玩家(雖然放在路徑外)。
  • 抵達旗幟即觸發勝利條件。
  • 小幅邊緣案例錯誤:coyote‑time 允許站在空氣上、以及旗幟前提前觸發勝利。

自我驗證

  • Opus 捕捉螢幕截圖、檢查後移除剩餘的除錯覆層才結束。
  • GLM‑5.2 無法觀看圖像;它嘗試以數值像素抽樣的方式作弊,錯誤地認為遊戲正確,即使缺少材質與覆層仍判定為完成。

"final_start/overview/flag.png 分析顏色:草綠、土棕、金幣金、旗幟紅、角色藍、半 Lambert 照明、無黑色" – GLM‑5.2 的自檢未捕捉到視覺缺陷。


基準比較

基準 GLM‑5.2 Opus 4.8
推理
HLE(含工具) 54.7 57.9*
AIME 2026 99.2 95.7
GPQA‑Diamond 91.2 93.6
IMOAnswerBench 91.0 83.5
程式碼
SWE‑bench Pro 62.1 69.2
NL2Repo 48.9 69.7
DeepSWE 46.2 58
ProgramBench 63.7 71.9
Terminal Bench 2.1(最佳 harness) 82.7 78.9
SWE‑Marathon 13.0 26.0
代理
MCP‑Atlas(公開) 76.8 77.8
Tool‑Decathlon 48.2 59.9

GLM‑5.2 在多項推理與程式碼任務(如 AIME、IMOAnswerBench、NL2Repo)中領先於其他開放權重模型,但在大多數程式碼與代理基準上仍落後於 Opus。


社群回應

  • Simon Willison 稱 GLM‑5.2 為 「可能是最強大的純文字開放權重 LLM」,因為它產生了一個完美的自行車鵜鶘動畫 SVG。
  • Artificial Analysis 在其 Intelligence Index(得分 51)中將 GLM‑5.2 排為開放權重模型之首,但指出其 token 消耗偏高(約每任務 43 k 輸出 token)。
  • Nathan Lambert 強調開放與封閉模型之間的差距正在縮小,提到 GLM‑5.2 在代理表現上相較 Gemini 相當出色。

實務要點

  1. 成本 vs. 速度 – 若預算有限且任務主要是邏輯或文字導向,GLM‑5.2 提供具吸引力的價格。
  2. 視覺驗證重要 – 產出視覺素材的任務,像 Opus 這樣的多模態模型能捕捉文字模型忽略的錯誤。
  3. 開放權重優勢 – GLM‑5.2 的 MIT 授權權重可自行永久託管,避免供應商鎖定。
  4. 混合工作流程 – 先用 GLM‑5.2 進行大量、低成本的生成,然後交給或使用多模態模型進行最終潤飾與視覺 QA。

結論

GLM‑5.2 證明開放權重模型如今已能以遠低於領先封閉模型的成本處理雄心勃勃的多步驟程式碼任務。然而,Claude Opus 4.8 在速度、視覺真實感與自我檢查能力上仍佔優。若成本與開放性是首要考量,選擇 GLM‑5.2;若正確性、精緻度與視覺判斷值得更高價格,則選擇 Opus。

Sources