GLM5.2 성능 (AMD MI355X): 낮은 비용으로 높은 처리량 달성

GLM5.2 성능 (AMD MI355X): 낮은 비용으로 높은 처리량 달성

AMD MI355X, GLM5.2에 대한 뛰어난 성능 대비 비용 제공

Wafer는 AMD Instinct MI355X가 2.4 요청/초(RPS)에서 노드당 초당 2626 토큰(tok/s/node)의 총 처리량을 제공할 수 있음을 입증했습니다. 이 구성은 NVIDIA B200 성능의 약 80%에 해당하며, GPU당 하드웨어 비용은 B300 대비 약 2.75배 낮은 것으로 추정됩니다.

성능 벤치마크

입력 토큰 20k와 출력 토큰 1k, 캐시 적중률 60%인 워크로드에서 MI355X는 다음과 같은 포화 지점을 기록했습니다:

지속 RPS 총 tok/s/node TTFT p50 / p95 성공률
0.5 449 0.59s / 0.60s 100%
1.0 974 0.60s / 0.81s 100%
1.5 1913 0.62s / 1.03s 100%
2.0 1944 0.62s / 1.05s 100%
2.25 2089 0.63s / 1.23s 100%
2.4 (포화) 2626 0.81s / 2.22s 100%

또한, 단일 스트림 테스트(입력 10k / 출력 1.5k 토큰)에서 MI355X는 213 tok/s를 달성했습니다.

기술 최적화 경로

이 결과를 얻기 위해서는 여러 소프트웨어 및 프레임워크 장벽을 극복해야 했으며, AMD의 ROCm 스택은 종종 NVIDIA CUDA 생태계가 제공하는 "day‑0" 지원이 부족합니다.

양자화 및 프레임워크 선택

Wafer는 AMD Quark를 사용해 기본 bf16 GLM‑5.2 모델을 MXFP4로 양자화했습니다. 이 양자화는 공식 FP8 양자화와 비교해 사실상 무손실이며, GSM8K 및 GPQA‑Diamond와 같은 벤치마크에 미치는 영향도 최소화되었습니다.

추론 엔진으로는 sglang을 선택했으며, 이는 vLLM 및 ATOM보다 MXFP4 양자화에 대한 네이티브 지원이 가장 원활하고 일관성이 높았습니다.

추측 디코딩 활성화

sglang ROCm 이미지에서는 추측 디코딩이 기본적으로 지원되지 않아 두 가지 구체적인 수정이 필요했습니다:

  1. Weight Mapping Fix: MTP(Multi‑Token Prediction) 헤드의 모듈 접두사와 메인 디코더 스택 간 불일치로 인해 양자화 조회가 실패했습니다. Quark 비양자화 목록의 레이어 78 항목을 sglang이 사용하는 디코더 이름 아래에 복제함으로써 Wafer는 추측 디코딩을 해제했고, 단일 스트림 처리량이 거의 3배 증가했습니다.
  2. ROCm Guard Implementation: 깊은 추측 디코딩(예: 5/1/6 구성)은 ROCm 가드가 없는 결합된 다단계 메타데이터 커널에 의해 차단되었습니다. #ifdef USE_ROCM 가드를 추가해 이 문제를 해결했습니다.

처리량 및 커널 튜닝

총 처리량을 극대화하기 위해 Wafer는 Tensor Parallelism 8(TP8) 구성에서 TP4×DP2(Data Parallelism) 구성으로 전환했습니다.

또한 팀은 GLM‑5.2의 fp4 MoE(전문가 혼합)가 sglang 이미지에서 느린 FlyDSL 휴리스틱 폴백으로 기본 설정되어 있음을 발견했습니다. GLM의 특정 fp4 형태(model_dim 6144, moe_inter 2048, E=256, topk=8)에 맞게 MoE 커널 선택을 수동으로 튜닝함으로써 최종 2626 tok/s/node 처리량을 달성했습니다.

산업적 함의 및 커뮤니티 관점

이 구현은 "CUDA 장벽"이 점차 무너지며, 에이전트 기반 코딩 및 수동 최적화를 통해 하드웨어 성능과 소프트웨어 지원 간의 격차를 메울 수 있음을 시사합니다.

커뮤니티 반론

기술적 성과가 주목할 만하지만, Hacker News 커뮤니티 회원들은 다음과 같은 비판적 의견을 제시했습니다:

  • 양자화 품질: 일부 사용자는 FP4 양자화가 실제로는 거의 무손실이 아니며, 최첨단 품질을 잃는 "절단된" 모델을 초래할 수 있다고 주장했습니다.
  • 벤치마크 타당성: 60% 캐시 적중률과 추측 디코딩 사용이 결과에 크게 영향을 미치므로, 이러한 조건이 일반적인 프로덕션 워크로드를 대표하는지 의문을 제기했습니다.
  • 지표 격차: 전력당 성능 지표가 없다는 점이 강조되었으며, 이는 전기 비용이 높은 미국 외 데이터센터 운영자에게 중요합니다.
  • 프로덕션 가능성: 일부는 이러한 최적화가 단일 스트림 트래픽에 대한 "벤치마크 해킹"에 가깝고, 확장 가능한 프로덕션 전략이라기보다는 제한적이라고 비판했습니다.

요약: Wafer는 AMD MI355X가 GLM5.2를 노드당 2626 tok/s로 제공할 수 있음을 보여주며, 이는 NVIDIA Blackwell GPU 대비 2배 이상 낮은 비용으로 경쟁력 있는 성능을 유지한다는 점을 강조합니다.

제목: GLM5.2 성능 (AMD MI355X): 낮은 비용으로 높은 처리량 달성

Sources