GLM 5.2 版本說明與效能分析

GLM 5.2 版本說明與效能分析

GLM 5.2 是一款高效能的開放權重模型,與最前沿的專有 LLM 競爭

Z.AI 已釋出 GLM 5.2 的權重,提供完整版本與 FP8 版本。此模型專為長時間跨度任務設計,展現出與多個專有模型相當或更佳的效能,尤其在代理式程式編寫與前端設計方面表現突出。

基準效能與代理式能力

GLM 5.2 相較於前代 GLM 5.1 有顯著提升,特別是在代理式程式編寫上。

主要基準洞見

  • 代理式程式編寫: 與 GLM 5.1 相比,模型在代理式程式編寫的效能有大幅提升。在 Deep SWE 基準(SWE‑Bench Pro 的替代品)上具備極高競爭力。
  • 通用智慧: 雖然在部分基準上仍被 Anthropic 的 Opus 4.8 與 OpenAI 的模型超越,但在使用工具時差距正在縮小。
  • 人類最後的考驗: 若不使用工具,GLM 5.2 仍被 Opus 4.8 超過,可能是受模型規模限制所致。

第三方驗證:Artificial Analysis

根據 Artificial Analysis 基準,GLM 5.2 在能力上相較於 GLM 5.1 有巨大的躍進。它超越了多個開源與專有模型,包括 DeepSeek Pro、Qwen 3.7 Max、MiniMax M3,甚至在某些指標上擊敗 GPT‑5.5。

Token 使用與推理

Artificial Analysis 數據顯示,GLM 5.2 極度依賴長鏈思考(CoT)。在推理過程中輸出的 token 數量多於 DeepSeek、Kimi K 2.6 與 Fable。雖然業界趨勢(以 OpenAI 為領頭)正朝向在降低 token 輸出量的同時保持高智慧發展,GLM 5.2 則是透過延長 token 使用來達成高效能。

專長領域:設計與長篇內容

GLM 5.2 在前端開發與長篇生成方面表現卓越,在 Design Arena 中排名靠前。

  • 前端設計: 模型能從簡單提示生成帶有動畫與圖片的複雜首頁,產出效果可與「Anthropic 風格」相媲美。
  • 長篇寫作: 測試中,模型成功產出超過 5,000 個 token 的內容,而許多其他模型通常會在 500 字左右截斷輸出。
  • 速度: 模型採用多 token 預測,提升了 token 生成速度,透過 OpenRouter API 平均每秒產生 36 至 40 個 token。

部署與成本效益

由於權重是開放的,用戶可自行選擇服務供應商,避免將資料傳送至特定區域或資料中心。

  • 價格: 目前各供應商的價格約為每百萬輸入 token $1.40、每百萬輸出 token $4.40。
  • 價值主張: 這樣的價格使 GLM 5.2 相較於當前最前沿的專有模型更為廉價,許多使用情境下可取代 Claude Sonnet 或 Gemini Flash 等模型。

摘要: Z.AI 已釋出 GLM 5.2,一款在代理式程式編寫與設計上可與最前沿專有模型競爭的開放權重模型,同時提供顯著更低的成本。

標題: GLM 5.2 版本說明與效能分析

Sources