GLM-5.2 vs Claude Opus 4.8: コスト効率の高いオープンモデル vs 高速なクローズドモデルの 3D WebGL ゲームテスト
GLM-5.2 vs Claude Opus 4.8: コスト効率の高いオープンモデル vs 高速なクローズドモデルの 3D WebGL ゲームテスト
TL;DR
GLM-5.2 は Claude Opus 4.8 の約 5 分の 1 の価格で完全な 3D WebGL プラットフォーマーを生成できるが、Opus は半分の時間で仕上げ、スクリーンショットを自己検証できるため、視覚的によりクリーンで機能的なゲームを提供する。
ヘッド・ツー・ヘッドテストの概要
- タスク: 生の WebGL(エンジンや 3D ライブラリなし)で 3D プラットフォーマーをゼロから構築するワンショットプロンプト。両エージェントには同じ Kenney CC0 アセットが提供された。
- モデル: Z.ai GLM‑5.2(テキストのみ、オープンウェイト、1 M トークンコンテキスト) vs. Anthropic Claude Opus 4.8(マルチモーダル、クローズド)。
- 指標:
指標 GLM‑5.2 (Pi/OpenRouter) Opus (Claude Code) 実時間ビルド時間 1 h 10 m 40 s 33 m 30 s 出力トークン数 131 k 216 k ピークコンテキスト使用率 1 M の 16 % 1 M の 19 % ツール呼び出し回数 128 153 コスト $5.39(実際に請求) ~$21.92(定価) - 結果: Opus は速く、よりクリーンなゲームを生成した。GLM‑5.2 は安価だが粗い仕上がりだった。
モデルの背景
GLM‑5.2
- Z.ai が提供するオープンウェイトモデルで、MIT ライセンスの下でリリースされている。
- テキストのみで、画像は処理できない。
- 1 M トークンのコンテキストウィンドウを持ち、2 つの「思考」レベル(High、Max)を備える。
- 1 M トークンあたりの価格: 入力 $1.4、キャッシュ読み取り $0.26、出力 $4.4 – Opus の約 5 分の 1。
- 重みは Hugging Face と ModelScope で入手可能で、vLLM、SGLang、または Transformers でローカル実行できる。
Claude Opus 4.8
- Anthropic が提供するクローズド、マルチモーダルモデル。
- 画像入力をサポートし、視覚的な自己チェックが可能。
- 1 M トークンあたりの価格: 入力 $5、キャッシュ読み取り $0.50、出力 $25。
- 高コストだが、より洗練された出力を提供する。
詳細なテスト結果
ビルド時間とコスト
Opus は WebGL プロジェクトを 33 分で完了し、推定コストは $21.92 だった。GLM‑5.2 は 1 時間 11 分かかり、コストは $5.39。タイムラプス(記事参照)では、Opus が GLM‑5.2 の実行時間のほぼ半分で終了していることが分かる。
ゲームプレイの品質
GLM‑5.2
- ビジュアルの粗さが目立ち、キャラクターはテクスチャが欠けた灰色に見える。
- スパイクの危険は プレイヤーを倒さない。
- フラッグに到達しても勝利条件が発動しない。
- スプリング機構は正しく動作する。
Opus
- テクスチャがクリアで、ライティングとアニメーションが滑らか。
- スパイクはプレイヤーを倒す(ただしパスから外れて配置されている)。
- フラッグに到達すると勝利条件が作動する。
- 小さなエッジケースバグ: 空中に立ち続けられるコヨーテタイム、フラッグ到達前に早期勝利がトリガーされる。
自己検証
- Opus はスクリーンショットを取得し、検査した上で残っているデバッグオーバーレイを除去して完了した。
- GLM‑5.2 は画像を見ることができず、数値的なピクセルサンプリングハックを試みたが、テクスチャ欠損やオーバーレイがあるにも関わらずゲームが正しいと誤って結論付けた。
"final_start/overview/flag.png analyzed for color: grass green, dirt brown, coin gold, flag red, character bluish, half‑Lambert lit, no black" – GLM‑5.2 の自己チェックは視覚的欠陥を見逃した。
ベンチマーク比較
| ベンチマーク | GLM‑5.2 | Opus 4.8 |
|---|---|---|
| 推論 | ||
| HLE (w/ tools) | 54.7 | 57.9* |
| AIME 2026 | 99.2 | 95.7 |
| GPQA‑Diamond | 91.2 | 93.6 |
| IMOAnswerBench | 91.0 | 83.5 |
| コーディング | ||
| SWE‑bench Pro | 62.1 | 69.2 |
| NL2Repo | 48.9 | 69.7 |
| DeepSWE | 46.2 | 58 |
| ProgramBench | 63.7 | 71.9 |
| Terminal Bench 2.1 (best harness) | 82.7 | 78.9 |
| SWE‑Marathon | 13.0 | 26.0 |
| エージェント | ||
| MCP‑Atlas (public) | 76.8 | 77.8 |
| Tool‑Decathlon | 48.2 | 59.9 |
GLM‑5.2 はオープンウェイトの中でいくつかの推論・コーディングタスク(例: AIME、IMOAnswerBench、NL2Repo)でリードしているが、ほとんどのコーディングおよびエージェントベンチマークでは Opus に劣る。
コミュニティの反応
- Simon Willison は GLM‑5.2 を 「おそらく最も強力なテキストのみのオープンウェイト LLM」 と評し、ペリカンが自転車に乗る完璧なアニメーション SVG を生成したことを挙げた。
- Artificial Analysis は GLM‑5.2 をインテリジェンス指数(スコア 51)でトップのオープンウェイトモデルと位置付けたが、タスクあたり約 43 k 出力トークンという高いトークン消費を指摘した。
- Nathan Lambert はオープンとクローズドモデルのギャップが縮まっていると指摘し、GLM‑5.2 のエージェント性能が Gemini に匹敵すると述べた。
実践的なポイント
- コスト vs. スピード – 予算が限られ、タスクが主に論理的またはテキスト中心である場合、GLM‑5.2 は魅力的な価格帯を提供する。
- 視覚的自己検証の重要性 – ビジュアル成果物を生成するタスクでは、Opus のようなマルチモーダルモデルがテキストのみモデルが見逃すエラーを捕捉できる。
- オープンウェイトの利点 – GLM‑5.2 の MIT ライセンスの重みは無期限に自己ホスト可能で、ベンダーロックインから保護できる。
- ハイブリッドワークフロー – 大量で低コストな生成は GLM‑5.2 で行い、最終的な磨き上げやビジュアル QA はマルチモーダルモデルに委ねる。
結論
GLM‑5.2 は、オープンウェイトモデルでもリーディングクローズドモデルの数分の一のコストで野心的なマルチステップコーディングタスクに挑めることを示した。しかし、Claude Opus 4.8 は速度、視覚的忠実度、自己チェック能力の面で依然として優れている。コストとオープン性が最重要であれば GLM‑5.2 を、正確さ・仕上がり・視覚的判断が高価でも正当化できる場合は Opus を選択すべきである。