GLM5.2 在 AMD MI355X 上的效能:以更低成本實現高吞吐量

GLM5.2 在 AMD MI355X 上的效能:以更低成本實現高吞吐量

AMD MI355X 為 GLM5.2 提供卓越的單位成本效能

Wafer 已證明 AMD Instinct MI355X 在 2.4 RPS 下,為 GLM5.2 模型提供每節點 2626 tokens per second per node (tok/s/node) 的總吞吐量。此配置實現了 NVIDIA B200 約 80% 的效能,而每顆 GPU 的硬體成本估計比 B300 低 2.75 倍。

效能基準測試

在包含 20k 輸入 tokens 與 1k 輸出 tokens 且快取命中率為 60% 的工作負載下,MI355X 達到了以下飽和點:

Sustained RPS Aggregate tok/s/node TTFT p50 / p95 Success
0.5 449 0.59s / 0.60s 100%
1.0 974 0.60s / 0.81s 100%
1.5 1913 0.62s / 1.03s 100%
2.0 1944 0.62s / 1.05s 100%
2.25 2089 0.63s / 1.23s 100%
2.4 (saturation) 2626 0.81s / 2.22s 100%

此外,在單串流測試 (10k input / 1.5k output tokens) 中,MI355X 達到了 213 tok/s。

技術優化路徑

實現這些結果需要克服多個軟體與框架障礙,因為 AMD 的 ROCm stack 往往缺乏 NVIDIA CUDA 生態系統所提供的 "day-0" 支援。

量化與框架選擇

Wafer 利用 AMD Quark 將基礎 bf16 GLM-5.2 模型量化為 MXFP4。研究發現,與官方 FP8 量化相比,這種量化方式實際上是無損的,對 GSM8K 與 GPQA-Diamond 等基準測試的影響極小。

對於推論引擎,選擇 sglang 而非 vLLM 與 ATOM,是因為它在保持一致性的同時,為原生支援 MXFP4 量化提供了最低的摩擦力。

啟用投機解碼 (Speculative Decoding)

在 sglang ROCm 映像檔中,投機解碼並非開箱即用,需要兩個特定的修正:

  1. 權重映射修正: MTP (Multi-Token Prediction) head 的模組前綴與主解碼器堆疊之間的不匹配,導致了量化查找失敗。透過在 sglang 使用的解碼器名稱下,於 Quark un-quantized list 中複製 layer 78 的條目,Wafer 解除了投機解碼的限制,從而使單串流吞吐量提升了近 3 倍。
  2. ROCm Guard 實作: 深層投機解碼 (例如 5/1/6 配置) 被一個缺乏 ROCm guard 的融合多步元數據核心 (fused multi-step metadata kernel) 所阻礙。加入一個 #ifdef USE_ROCM guard 解決了此問題。

吞吐量與核心函數 (Kernel) 調優

為了最大化總吞吐量,Wafer 從 Tensor Parallelism 8 (TP8) 配置轉向了 TP4×DP2 (Data Parallelism) 配置。

此外,團隊發現 GLM-5.2 的 fp4 MoE (Mixture of Experts) 在 sglang 映像檔上預設會回退到緩慢的 FlyDSL 啟發式演算法。透過手動調優 GLM 特定 fp4 形狀的 MoE kernel 選擇 (model_dim 6144, moe_inter 2048, E=256, topk=8),吞吐量提升至最終的 2626 tok/s/node。

行業影響與社群觀點

此實作建議,隨著代理型編碼 (agentic coding) 與手動優化可以彌補硬體能力與軟體支援之間的差距,"CUDA moat" (CUDA 護城河) 正在侵蝕。

社群反對意見

雖然技術成就顯著,但 Hacker News 的社群成員就這些基準測試的實際應用性提出了幾個關鍵點:

  • 量化品質: 一些使用者認為 FP4 量化在實務中很少能真正做到無損,並可能導致模型「腦袋被挖空」(lobotomized) 而失去前沿級別的品質。

  • 基準測試有效性: 批評者指出,60% 的快取命中率與使用投機解碼會顯量著影響結果,質疑這是否代表了典型的生產環境工作負載。

  • 指標差距: 討論中強調了缺乏效能/瓦特 (performance-per-watt) 指力,這對於美國以外、電力成本較高的數據中心營運商來說至關重要。

  • 生產可行性: 一些人質疑,這些優化化是主要針對單串流流量的 "benchmark hacking" (基準測試黑客行為) 而非具備可擴展性的生產策略。 ]} {

Sources