GLM5.2 성능 (AMD MI355X): 낮은 비용으로 높은 처리량 달성
GLM5.2 성능 (AMD MI355X): 낮은 비용으로 높은 처리량 달성
AMD MI355X, GLM5.2에 대한 뛰어난 성능 대비 비용 제공
Wafer는 AMD Instinct MI355X가 2.4 요청/초(RPS)에서 노드당 초당 2626 토큰(tok/s/node)의 총 처리량을 제공할 수 있음을 입증했습니다. 이 구성은 NVIDIA B200 성능의 약 80%에 해당하며, GPU당 하드웨어 비용은 B300 대비 약 2.75배 낮은 것으로 추정됩니다.
성능 벤치마크
입력 토큰 20k와 출력 토큰 1k, 캐시 적중률 60%인 워크로드에서 MI355X는 다음과 같은 포화 지점을 기록했습니다:
| 지속 RPS | 총 tok/s/node | TTFT p50 / p95 | 성공률 |
|---|---|---|---|
| 0.5 | 449 | 0.59s / 0.60s | 100% |
| 1.0 | 974 | 0.60s / 0.81s | 100% |
| 1.5 | 1913 | 0.62s / 1.03s | 100% |
| 2.0 | 1944 | 0.62s / 1.05s | 100% |
| 2.25 | 2089 | 0.63s / 1.23s | 100% |
| 2.4 (포화) | 2626 | 0.81s / 2.22s | 100% |
또한, 단일 스트림 테스트(입력 10k / 출력 1.5k 토큰)에서 MI355X는 213 tok/s를 달성했습니다.
기술 최적화 경로
이 결과를 얻기 위해서는 여러 소프트웨어 및 프레임워크 장벽을 극복해야 했으며, AMD의 ROCm 스택은 종종 NVIDIA CUDA 생태계가 제공하는 "day‑0" 지원이 부족합니다.
양자화 및 프레임워크 선택
Wafer는 AMD Quark를 사용해 기본 bf16 GLM‑5.2 모델을 MXFP4로 양자화했습니다. 이 양자화는 공식 FP8 양자화와 비교해 사실상 무손실이며, GSM8K 및 GPQA‑Diamond와 같은 벤치마크에 미치는 영향도 최소화되었습니다.
추론 엔진으로는 sglang을 선택했으며, 이는 vLLM 및 ATOM보다 MXFP4 양자화에 대한 네이티브 지원이 가장 원활하고 일관성이 높았습니다.
추측 디코딩 활성화
sglang ROCm 이미지에서는 추측 디코딩이 기본적으로 지원되지 않아 두 가지 구체적인 수정이 필요했습니다:
- Weight Mapping Fix: MTP(Multi‑Token Prediction) 헤드의 모듈 접두사와 메인 디코더 스택 간 불일치로 인해 양자화 조회가 실패했습니다. Quark 비양자화 목록의 레이어 78 항목을 sglang이 사용하는 디코더 이름 아래에 복제함으로써 Wafer는 추측 디코딩을 해제했고, 단일 스트림 처리량이 거의 3배 증가했습니다.
- ROCm Guard Implementation: 깊은 추측 디코딩(예: 5/1/6 구성)은 ROCm 가드가 없는 결합된 다단계 메타데이터 커널에 의해 차단되었습니다.
#ifdef USE_ROCM가드를 추가해 이 문제를 해결했습니다.
처리량 및 커널 튜닝
총 처리량을 극대화하기 위해 Wafer는 Tensor Parallelism 8(TP8) 구성에서 TP4×DP2(Data Parallelism) 구성으로 전환했습니다.
또한 팀은 GLM‑5.2의 fp4 MoE(전문가 혼합)가 sglang 이미지에서 느린 FlyDSL 휴리스틱 폴백으로 기본 설정되어 있음을 발견했습니다. GLM의 특정 fp4 형태(model_dim 6144, moe_inter 2048, E=256, topk=8)에 맞게 MoE 커널 선택을 수동으로 튜닝함으로써 최종 2626 tok/s/node 처리량을 달성했습니다.
산업적 함의 및 커뮤니티 관점
이 구현은 "CUDA 장벽"이 점차 무너지며, 에이전트 기반 코딩 및 수동 최적화를 통해 하드웨어 성능과 소프트웨어 지원 간의 격차를 메울 수 있음을 시사합니다.
커뮤니티 반론
기술적 성과가 주목할 만하지만, Hacker News 커뮤니티 회원들은 다음과 같은 비판적 의견을 제시했습니다:
- 양자화 품질: 일부 사용자는 FP4 양자화가 실제로는 거의 무손실이 아니며, 최첨단 품질을 잃는 "절단된" 모델을 초래할 수 있다고 주장했습니다.
- 벤치마크 타당성: 60% 캐시 적중률과 추측 디코딩 사용이 결과에 크게 영향을 미치므로, 이러한 조건이 일반적인 프로덕션 워크로드를 대표하는지 의문을 제기했습니다.
- 지표 격차: 전력당 성능 지표가 없다는 점이 강조되었으며, 이는 전기 비용이 높은 미국 외 데이터센터 운영자에게 중요합니다.
- 프로덕션 가능성: 일부는 이러한 최적화가 단일 스트림 트래픽에 대한 "벤치마크 해킹"에 가깝고, 확장 가능한 프로덕션 전략이라기보다는 제한적이라고 비판했습니다.
요약: Wafer는 AMD MI355X가 GLM5.2를 노드당 2626 tok/s로 제공할 수 있음을 보여주며, 이는 NVIDIA Blackwell GPU 대비 2배 이상 낮은 비용으로 경쟁력 있는 성능을 유지한다는 점을 강조합니다.
제목: GLM5.2 성능 (AMD MI355X): 낮은 비용으로 높은 처리량 달성