GLM-5.2 vs Claude Opus 4.8: コスト効率の高いオープンモデル vs 高速なクローズドモデルの 3D WebGL ゲームテスト

GLM-5.2 vs Claude Opus 4.8: コスト効率の高いオープンモデル vs 高速なクローズドモデルの 3D WebGL ゲームテスト

TL;DR

GLM-5.2 は Claude Opus 4.8 の約 5 分の 1 の価格で完全な 3D WebGL プラットフォーマーを生成できるが、Opus は半分の時間で仕上げ、スクリーンショットを自己検証できるため、視覚的によりクリーンで機能的なゲームを提供する。


ヘッド・ツー・ヘッドテストの概要

  • タスク: 生の WebGL(エンジンや 3D ライブラリなし)で 3D プラットフォーマーをゼロから構築するワンショットプロンプト。両エージェントには同じ Kenney CC0 アセットが提供された。
  • モデル: Z.ai GLM‑5.2(テキストのみ、オープンウェイト、1 M トークンコンテキスト) vs. Anthropic Claude Opus 4.8(マルチモーダル、クローズド)。
  • 指標:
    指標 GLM‑5.2 (Pi/OpenRouter) Opus (Claude Code)
    実時間ビルド時間 1 h 10 m 40 s 33 m 30 s
    出力トークン数 131 k 216 k
    ピークコンテキスト使用率 1 M の 16 % 1 M の 19 %
    ツール呼び出し回数 128 153
    コスト $5.39(実際に請求) ~$21.92(定価)
  • 結果: Opus は速く、よりクリーンなゲームを生成した。GLM‑5.2 は安価だが粗い仕上がりだった。

モデルの背景

GLM‑5.2

  • Z.ai が提供するオープンウェイトモデルで、MIT ライセンスの下でリリースされている。
  • テキストのみで、画像は処理できない。
  • 1 M トークンのコンテキストウィンドウを持ち、2 つの「思考」レベル(High、Max)を備える。
  • 1 M トークンあたりの価格: 入力 $1.4、キャッシュ読み取り $0.26、出力 $4.4 – Opus の約 5 分の 1。
  • 重みは Hugging Face と ModelScope で入手可能で、vLLM、SGLang、または Transformers でローカル実行できる。

Claude Opus 4.8

  • Anthropic が提供するクローズド、マルチモーダルモデル。
  • 画像入力をサポートし、視覚的な自己チェックが可能。
  • 1 M トークンあたりの価格: 入力 $5、キャッシュ読み取り $0.50、出力 $25。
  • 高コストだが、より洗練された出力を提供する。

詳細なテスト結果

ビルド時間とコスト

Opus は WebGL プロジェクトを 33 分で完了し、推定コストは $21.92 だった。GLM‑5.2 は 1 時間 11 分かかり、コストは $5.39。タイムラプス(記事参照)では、Opus が GLM‑5.2 の実行時間のほぼ半分で終了していることが分かる。

ゲームプレイの品質

GLM‑5.2

  • ビジュアルの粗さが目立ち、キャラクターはテクスチャが欠けた灰色に見える。
  • スパイクの危険は プレイヤーを倒さない
  • フラッグに到達しても勝利条件が発動しない。
  • スプリング機構は正しく動作する。

Opus

  • テクスチャがクリアで、ライティングとアニメーションが滑らか。
  • スパイクはプレイヤーを倒す(ただしパスから外れて配置されている)。
  • フラッグに到達すると勝利条件が作動する。
  • 小さなエッジケースバグ: 空中に立ち続けられるコヨーテタイム、フラッグ到達前に早期勝利がトリガーされる。

自己検証

  • Opus はスクリーンショットを取得し、検査した上で残っているデバッグオーバーレイを除去して完了した。
  • GLM‑5.2 は画像を見ることができず、数値的なピクセルサンプリングハックを試みたが、テクスチャ欠損やオーバーレイがあるにも関わらずゲームが正しいと誤って結論付けた。

"final_start/overview/flag.png analyzed for color: grass green, dirt brown, coin gold, flag red, character bluish, half‑Lambert lit, no black" – GLM‑5.2 の自己チェックは視覚的欠陥を見逃した。


ベンチマーク比較

ベンチマーク GLM‑5.2 Opus 4.8
推論
HLE (w/ tools) 54.7 57.9*
AIME 2026 99.2 95.7
GPQA‑Diamond 91.2 93.6
IMOAnswerBench 91.0 83.5
コーディング
SWE‑bench Pro 62.1 69.2
NL2Repo 48.9 69.7
DeepSWE 46.2 58
ProgramBench 63.7 71.9
Terminal Bench 2.1 (best harness) 82.7 78.9
SWE‑Marathon 13.0 26.0
エージェント
MCP‑Atlas (public) 76.8 77.8
Tool‑Decathlon 48.2 59.9

GLM‑5.2 はオープンウェイトの中でいくつかの推論・コーディングタスク(例: AIME、IMOAnswerBench、NL2Repo)でリードしているが、ほとんどのコーディングおよびエージェントベンチマークでは Opus に劣る。


コミュニティの反応

  • Simon Willison は GLM‑5.2 を 「おそらく最も強力なテキストのみのオープンウェイト LLM」 と評し、ペリカンが自転車に乗る完璧なアニメーション SVG を生成したことを挙げた。
  • Artificial Analysis は GLM‑5.2 をインテリジェンス指数(スコア 51)でトップのオープンウェイトモデルと位置付けたが、タスクあたり約 43 k 出力トークンという高いトークン消費を指摘した。
  • Nathan Lambert はオープンとクローズドモデルのギャップが縮まっていると指摘し、GLM‑5.2 のエージェント性能が Gemini に匹敵すると述べた。

実践的なポイント

  1. コスト vs. スピード – 予算が限られ、タスクが主に論理的またはテキスト中心である場合、GLM‑5.2 は魅力的な価格帯を提供する。
  2. 視覚的自己検証の重要性 – ビジュアル成果物を生成するタスクでは、Opus のようなマルチモーダルモデルがテキストのみモデルが見逃すエラーを捕捉できる。
  3. オープンウェイトの利点 – GLM‑5.2 の MIT ライセンスの重みは無期限に自己ホスト可能で、ベンダーロックインから保護できる。
  4. ハイブリッドワークフロー – 大量で低コストな生成は GLM‑5.2 で行い、最終的な磨き上げやビジュアル QA はマルチモーダルモデルに委ねる。

結論

GLM‑5.2 は、オープンウェイトモデルでもリーディングクローズドモデルの数分の一のコストで野心的なマルチステップコーディングタスクに挑めることを示した。しかし、Claude Opus 4.8 は速度、視覚的忠実度、自己チェック能力の面で依然として優れている。コストとオープン性が最重要であれば GLM‑5.2 を、正確さ・仕上がり・視覚的判断が高価でも正当化できる場合は Opus を選択すべきである。

Sources