GLM5.2 の AMD MI355X におけるパフォーマンス: コストを抑えて高スループットを実現
GLM5.2 の AMD MI355X におけるパフォーマンス: コストを抑えて高スループットを実現
AMD MI355X が GLM5.2 に対して優れたコストパフォーマンスを提供
Wafer は、AMD Instinct MI355X が GLM5.2 モデルを 1 ノードあたり秒間 2626 トークン (tok/s/node) の合計スループットで、秒間 2.4 リクエスト (RPS) を処理できることを実証しました。この構成は NVIDIA B200 の約 80% の性能を達成しながら、GPU あたりのハードウェアコストは B300 の約 2.75 倍低いと推定されています。
パフォーマンスベンチマーク
入力トークン 20k、出力トークン 1k、キャッシュヒット率 60% のワークロードにおいて、MI355X は以下の飽和点に到達しました:
| Sustained RPS | Aggregate tok/s/node | TTFT p50 / p95 | Success |
|---|---|---|---|
| 0.5 | 449 | 0.59s / 0.60s | 100% |
| 1.0 | 974 | 0.60s / 0.81s | 100% |
| 1.5 | 1913 | 0.62s / 1.03s | 100% |
| 2.0 | 1944 | 0.62s / 1.05s | 100% |
| 2.25 | 2089 | 0.63s / 1.23s | 100% |
| 2.4 (saturation) | 2626 | 0.81s / 2.22s | 100% |
さらに、シングルストリームテスト (入力 10k / 出力 1.5k トークン) では、MI355X は 213 tok/s を達成しました。
技術的最適化パス
これらの結果を得るためには、AMD の ROCm スタックが NVIDIA の CUDA エコシステムが提供する「day‑0」サポートを欠いていることが多く、いくつかのソフトウェアおよびフレームワークのハードルを克服する必要がありました。
量子化とフレームワークの選択
Wafer は AMD Quark を使用して、ベースの bf16 GLM‑5.2 モデルを MXFP4 に量子化しました。この量子化は、公式の FP8 量子化と比較して実質的にロスレスであり、GSM8K や GPQA‑Diamond といったベンチマークへの影響は最小限でした。
推論エンジンには、MXFP4 量子化のネイティブサポートが最も摩擦なく提供され、かつ一貫性を保てることから sglang が vLLM や ATOM よりも選択されました。
推測デコーディングの有効化
sglang ROCm イメージでは推測デコーディングがデフォルトでサポートされていなかったため、以下の 2 つの修正が必要でした:
- Weight Mapping Fix: MTP (Multi‑Token Prediction) ヘッドのモジュールプレフィックスとメインデコーダスタックの不一致により量子化ルックアップが失敗していました。Quark の非量子化リストにレイヤ 78 のエントリを sglang が使用するデコーダ名の下に複製することで、推測デコードが解除され、シングルストリームスループットがほぼ 3 倍に向上しました。
- ROCm Guard Implementation: 深い推測デコード (例: 5/1/6 設定) は、ROCm ガードが欠如した融合マルチステップメタデータカーネルによりブロックされていました。
#ifdef USE_ROCMガードを追加することでこの問題を解決しました。
スループットとカーネルチューニング
合計スループットを最大化するため、Wafer は Tensor Parallelism 8 (TP8) 構成から TP4×DP2 (Data Parallelism) 構成へと移行しました。
さらに、チームは GLM‑5.2 の fp4 MoE (Mixture of Experts) が sglang イメージ上で遅い FlyDSL ヒューリスティックフォールバックにデフォルトで設定されていることを発見しました。GLM の特定 fp4 形状 (model_dim 6144, moe_inter 2048, E=256, topk=8) に合わせて MoE カーネル選択を手動でチューニングすることで、最終的に 2626 tok/s/node へとスループットを向上させました。
業界への影響とコミュニティの視点
この実装は、エージェントコーディングや手動最適化がハードウェア性能とソフトウェアサポートのギャップを埋めることで、"CUDA の堀" が徐々に崩れつつあることを示唆しています。
コミュニティからの反論
技術的成果は注目に値しますが、Hacker News のコミュニティメンバーは以下の点で批判的な意見を挙げました:
- 量子化品質: 一部のユーザーは、FP4 量子化は実際にはほとんどロスレスではなく、最先端の品質を失う "lobotomized" モデルになる可能性があると指摘しました。
- ベンチマークの妥当性: 60% のキャッシュヒット率と推測デコーディングの使用が結果に大きく影響しており、これが典型的な本番ワークロードを代表しているか疑問視されました。
- 指標の欠如: 米国以外で電力コストが高いデータセンター運用者にとって重要な performance‑per‑watt 指標が欠如している点が指摘されました。
- 本番稼働の実現性: これらの最適化がシングルストリームトラフィック向けの "ベンチマークハッキング" に過ぎず、スケーラブルな本番戦略とは言えないのではないかという懸念が示されました。
要約: Wafer は、AMD MI355X が GLM5.2 を 2626 tok/s/node で提供でき、NVIDIA Blackwell GPU と比べてコストを 2 倍以上削減しながら競争力のある性能を維持できることを実証しました。
タイトル: GLM5.2 の AMD MI355X におけるパフォーマンス: コストを抑えて高スループットを実現