GLM 5.2 リリースノートとパフォーマンス分析

GLM 5.2 リリースノートとパフォーマンス分析

GLM 5.2 は、最先端の商用 LLM と競合する高性能オープンウェイトモデルです

Z.AI は GLM 5.2 のウェイトを公開し、フルバージョンと FP8 バージョンの両方を提供しました。このモデルは長期タスク向けに設計されており、特にエージェント的コーディングやフロントエンドデザインにおいて、いくつかの商用モデルに匹敵またはそれを上回る性能を示します。

ベンチマーク性能とエージェント的能力

GLM 5.2 は前バージョンの GLM 5.1 と比較して、特にエージェント的コーディングにおいて大幅な改善を示しています。

主なベンチマーク洞察

  • エージェント的コーディング: GLM 5.2 は GLM 5.1 と比べてエージェント的コーディングの性能が大きく向上しています。Deep SWE ベンチマーク(SWE‑Bench Pro の代替)でも非常に競争力があります。
  • 汎用知能: 一部のベンチマークでは Anthropic の Opus 4.8 や OpenAI のモデルに劣りますが、ツールを活用した際にはギャップが縮まっています。
  • 人類最後の試験: ツールを使用しない場合、GLM 5.2 は Opus 4.8 に劣ります。これはモデルサイズの制約が原因と考えられます。

人工分析によるサードパーティ検証

人工分析ベンチマークによると、GLM 5.2 は GLM 5.1 に比べて能力が大幅に向上しています。DeepSeek Pro、Qwen 3.7 Max、MiniMax M3 などの他のオープンおよび商用モデルを上回り、特定の指標では GPT‑5.5 すらも凌駕しています。

トークン使用と推論

人工分析データは、GLM 5.2 が長い思考チェーン(CoT)に大きく依存していることを示しています。推論過程で出力されるトークン数は DeepSeek、Kimi K 2.6、Fable よりも多くなります。業界のトレンドは OpenAI 主導で、トークン出力を削減しつつ高い知能を維持する方向に向かっていますが、GLM 5.2 はトークン使用量を増やすことで高性能を実現しています。

専門的な強み:デザインと長文生成

GLM 5.2 はフロントエンド開発と長文生成に優れ、Design Arena で高い評価を受けています。

  • フロントエンドデザイン: シンプルなプロンプトからアニメーションや画像を含む複雑なホームページを生成でき、"Anthropic look" に匹敵する結果を出します。
  • 長文執筆: テストでは 5,000 トークンを超えるコンテンツを生成でき、多くの他モデルが 500 ワードで出力を切り捨てるのに対し、GLM 5.2 はそれを克服します。
  • 速度: マルチトークン予測を活用しており、OpenRouter API 経由で秒間 36〜40 トークンの高速生成を実現しています。

デプロイとコスト効率

ウェイトがオープンであるため、ユーザーはデータを特定の地域やデータセンターに送信しないサービスプロバイダーを選択できます。

  • 価格設定: 現在のプロバイダー間の価格は、入力トークン 100 万件あたり約 $1.40、出力トークン 100 万件あたり約 $4.40 です。
  • 価値提案: この価格により、GLM 5.2 は現在の最先端商用モデルよりも大幅に安価で、Claude Sonnet や Gemini Flash などのモデルを多くのユースケースで置き換える可能性があります。

Sources