GLM5.2 在 AMD MI355X 上的效能：以更低成本實現高吞吐量

AMD MI355X 為 GLM5.2 提供卓越的單位成本效能

Wafer 已證明 AMD Instinct MI355X 在 2.4 RPS 下，為 GLM5.2 模型提供每節點 2626 tokens per second per node (tok/s/node) 的總吞吐量。此配置實現了 NVIDIA B200 約 80% 的效能，而每顆 GPU 的硬體成本估計比 B300 低 2.75 倍。

效能基準測試

在包含 20k 輸入 tokens 與 1k 輸出 tokens 且快取命中率為 60% 的工作負載下，MI355X 達到了以下飽和點：

Sustained RPS	Aggregate tok/s/node	TTFT p50 / p95	Success
0.5	449	0.59s / 0.60s	100%
1.0	974	0.60s / 0.81s	100%
1.5	1913	0.62s / 1.03s	100%
2.0	1944	0.62s / 1.05s	100%
2.25	2089	0.63s / 1.23s	100%
2.4 (saturation)	2626	0.81s / 2.22s	100%

此外，在單串流測試 (10k input / 1.5k output tokens) 中，MI355X 達到了 213 tok/s。

技術優化路徑

實現這些結果需要克服多個軟體與框架障礙，因為 AMD 的 ROCm stack 往往缺乏 NVIDIA CUDA 生態系統所提供的 "day-0" 支援。

量化與框架選擇

Wafer 利用 AMD Quark 將基礎 bf16 GLM-5.2 模型量化為 MXFP4。研究發現，與官方 FP8 量化相比，這種量化方式實際上是無損的，對 GSM8K 與 GPQA-Diamond 等基準測試的影響極小。

對於推論引擎，選擇 sglang 而非 vLLM 與 ATOM，是因為它在保持一致性的同時，為原生支援 MXFP4 量化提供了最低的摩擦力。

啟用投機解碼 (Speculative Decoding)

在 sglang ROCm 映像檔中，投機解碼並非開箱即用，需要兩個特定的修正：

權重映射修正： MTP (Multi-Token Prediction) head 的模組前綴與主解碼器堆疊之間的不匹配，導致了量化查找失敗。透過在 sglang 使用的解碼器名稱下，於 Quark un-quantized list 中複製 layer 78 的條目，Wafer 解除了投機解碼的限制，從而使單串流吞吐量提升了近 3 倍。
ROCm Guard 實作： 深層投機解碼 (例如 5/1/6 配置) 被一個缺乏 ROCm guard 的融合多步元數據核心 (fused multi-step metadata kernel) 所阻礙。加入一個 #ifdef USE_ROCM guard 解決了此問題。

吞吐量與核心函數 (Kernel) 調優

為了最大化總吞吐量，Wafer 從 Tensor Parallelism 8 (TP8) 配置轉向了 TP4×DP2 (Data Parallelism) 配置。

此外，團隊發現 GLM-5.2 的 fp4 MoE (Mixture of Experts) 在 sglang 映像檔上預設會回退到緩慢的 FlyDSL 啟發式演算法。透過手動調優 GLM 特定 fp4 形狀的 MoE kernel 選擇 (model_dim 6144, moe_inter 2048, E=256, topk=8)，吞吐量提升至最終的 2626 tok/s/node。

行業影響與社群觀點

此實作建議，隨著代理型編碼 (agentic coding) 與手動優化可以彌補硬體能力與軟體支援之間的差距，"CUDA moat" (CUDA 護城河) 正在侵蝕。

社群反對意見

雖然技術成就顯著，但 Hacker News 的社群成員就這些基準測試的實際應用性提出了幾個關鍵點：

量化品質： 一些使用者認為 FP4 量化在實務中很少能真正做到無損，並可能導致模型「腦袋被挖空」(lobotomized) 而失去前沿級別的品質。
基準測試有效性： 批評者指出，60% 的快取命中率與使用投機解碼會顯量著影響結果，質疑這是否代表了典型的生產環境工作負載。
指標差距： 討論中強調了缺乏效能/瓦特 (performance-per-watt) 指力，這對於美國以外、電力成本較高的數據中心營運商來說至關重要。
生產可行性： 一些人質疑，這些優化化是主要針對單串流流量的 "benchmark hacking" (基準測試黑客行為) 而非具備可擴展性的生產策略。 ]} {

GLM5.2 在 AMD MI355X 上的效能：以更低成本實現高吞吐量

GLM5.2 在 AMD MI355X 上的效能：以更低成本實現高吞吐量

AMD MI355X 為 GLM5.2 提供卓越的單位成本效能

效能基準測試

技術優化路徑

量化與框架選擇

啟用投機解碼 (Speculative Decoding)

吞吐量與核心函數 (Kernel) 調優

行業影響與社群觀點

社群反對意見

Sources