GLM-5.2 vs Claude Opus 4.8: 비용‑효율적인 오픈 모델 vs 더 빠른 클로즈드 모델의 3D WebGL 게임 테스트
GLM-5.2 vs Claude Opus 4.8: 비용‑효율적인 오픈 모델 vs 더 빠른 클로즈드 모델의 3D WebGL 게임 테스트
TL;DR
GLM-5.2는 Claude Opus 4.8의 약 5분의 1 가격으로 완전한 3D WebGL 플랫폼 게임을 생성할 수 있지만, Opus는 절반 정도의 시간에 작업을 마치고 스크린샷 자체 검증이 가능해 시각적으로 더 깔끔하고 기능적인 게임을 제공합니다.
정면 대결 테스트 개요
- 작업: 원시 WebGL(엔진이나 3D 라이브러리 없이)로 3D 플랫폼 게임을 처음부터 만들라는 한 번의 프롬프트. 두 에이전트 모두 동일한 Kenney CC0 에셋을 받았습니다.
- 모델: Z.ai GLM‑5.2 (텍스트 전용, 오픈 가중치, 1 M‑토큰 컨텍스트) vs. Anthropic Claude Opus 4.8 (멀티모달, 클로즈드).
- 측정 지표:
Metric GLM‑5.2 (Pi/OpenRouter) Opus (Claude Code) 실제 빌드 시간 1 h 10 m 40 s 33 m 30 s 출력 토큰 131 k 216 k 피크 컨텍스트 사용량 1 M의 16 % 1 M의 19 % 툴 호출 수 128 153 비용 $5.39 (실제 청구) ~$21.92 (정가) - 결과: Opus가 더 빠르고 깔끔한 게임을 만들었으며, GLM‑5.2는 더 저렴하지만 다소 거친 결과물을 냈습니다.
모델 배경
GLM‑5.2
- Z.ai에서 제공하는 오픈‑가중치 모델로 MIT 라이선스로 배포됩니다.
- 텍스트 전용; 이미지를 처리할 수 없습니다.
- 1 M‑토큰 컨텍스트 윈도우; 두 가지 “생각” 레벨(High, Max) 제공.
- 1 M 토큰당 가격: 입력 $1.4, 캐시 읽기 $0.26, 출력 $4.4 – Opus의 약 5분의 1 수준.
- 가중치는 Hugging Face와 ModelScope에서 제공되며, vLLM, SGLang, Transformers 등으로 로컬 실행 가능.
Claude Opus 4.8
- Anthropic에서 제공하는 클로즈드 멀티모달 모델.
- 이미지 입력을 지원해 시각적 자체 검증이 가능합니다.
- 1 M 토큰당 가격: 입력 $5, 캐시 읽기 $0.50, 출력 $25.
- 높은 비용에 비해 더 다듬어진 결과물을 제공합니다.
상세 테스트 결과
빌드 시간 및 비용
Opus는 WebGL 프로젝트를 33 분 안에 완료했으며, 예상 비용은 $21.92였습니다. GLM‑5.2는 1 시간 11 분이 걸렸고 비용은 $5.39였습니다. 타임랩스(기사 참고)에서는 Opus가 GLM‑5.2 실행 시간의 절반 정도에서 작업을 마치는 모습을 확인할 수 있습니다.
게임플레이 품질
GLM‑5.2
- 시각적 완성도가 거침; 캐릭터가 회색이며 텍스처가 누락됨.
- 스파이크 함정이 플레이어를 죽이지 않음.
- 깃발에 도달해도 승리 조건이 발동되지 않음.
- 스프링 메커니즘은 정상 작동.
Opus
- 텍스처가 깔끔하고 조명이 적절하며 애니메이션이 부드러움.
- 스파이크 함정이 플레이어를 죽임(경로 밖에 배치됨).
- 깃발에 도달하면 승리 조건이 활성화.
- 작은 엣지‑케이스 버그: 얇은 공중에 서 있을 수 있는 코요테‑타임, 깃발 전에 조기 승리 트리거.
자체 검증
- Opus는 스크린샷을 캡처하고 검토한 뒤 남아있는 디버그 오버레이를 제거하고 작업을 마무리했습니다.
- GLM‑5.2는 이미지를 볼 수 없어 숫자 픽셀 샘플링 해킹을 시도했지만, 텍스처와 오버레이가 누락된 상태에서도 게임이 정상이라고 잘못 판단했습니다.
"final_start/overview/flag.png 분석 결과 색상: 풀 초록, 흙 갈색, 코인 금색, 깃발 빨강, 캐릭터 청색빛, 반 Lambert 조명, 검정 없음" – GLM‑5.2의 자체 검증은 시각적 결함을 놓쳤습니다.
벤치마크 비교
| Benchmark | GLM‑5.2 | Opus 4.8 |
|---|---|---|
| Reasoning | ||
| HLE (w/ tools) | 54.7 | 57.9* |
| AIME 2026 | 99.2 | 95.7 |
| GPQA‑Diamond | 91.2 | 93.6 |
| IMOAnswerBench | 91.0 | 83.5 |
| Coding | ||
| SWE‑bench Pro | 62.1 | 69.2 |
| NL2Repo | 48.9 | 69.7 |
| DeepSWE | 46.2 | 58 |
| ProgramBench | 63.7 | 71.9 |
| Terminal Bench 2.1 (best harness) | 82.7 | 78.9 |
| SWE‑Marathon | 13.0 | 26.0 |
| Agentic | ||
| MCP‑Atlas (public) | 76.8 | 77.8 |
| Tool‑Decathlon | 48.2 | 59.9 |
GLM‑5.2는 여러 추론 및 코딩 과제(AIME, IMOAnswerBench, NL2Repo 등)에서 오픈‑가중치 모델 중 선두에 서지만, 대부분의 코딩 및 에이전트 벤치마크에서는 Opus에 뒤처집니다.
커뮤니티 반응
- Simon Willison은 GLM‑5.2가 *"아마도 가장 강력한 텍스트‑전용 오픈 가중치 LLM"*이라고 평가했으며, 자전거를 탄 펠리컨의 완벽한 애니메이션 SVG를 생성한 사례를 언급했습니다.
- Artificial Analysis는 GLM‑5.2를 인텔리전스 인덱스에서 최고 오픈‑가중치 모델(점수 51)으로 선정했지만, 작업당 약 43 k 출력 토큰이라는 높은 토큰 소비량을 지적했습니다.
- Nathan Lambert는 오픈 모델과 클로즈드 모델 간 격차가 좁혀지고 있음을 강조하며, GLM‑5.2가 Gemini 대비 강력한 에이전트 성능을 보여준다고 언급했습니다.
실용적인 시사점
- 비용 vs. 속도 – 예산이 제한되고 작업이 주로 논리적이거나 텍스트 기반이라면 GLM‑5.2가 매력적인 가격대를 제공합니다.
- 시각적 검증의 중요성 – 시각적 산출물을 만드는 작업에서는 Opus와 같은 멀티모달 모델이 텍스트 전용 모델이 놓치는 오류를 잡아낼 수 있습니다.
- 오픈‑가중치의 장점 – GLM‑5.2의 MIT‑라이선스 가중치는 무기한 자체 호스팅이 가능해 공급업체 종속성을 방지합니다.
- 하이브리드 워크플로 – 대량의 저비용 생성은 GLM‑5.2로 수행하고, 최종 다듬기와 시각 QA는 멀티모달 모델에 맡기는 방식이 효율적입니다.
결론
GLM‑5.2는 오픈‑가중치 모델이 이제 비용 대비 선도적인 클로즈드 모델에 비해 복잡하고 다단계 코딩 작업을 수행할 수 있음을 보여줍니다. 그러나 Claude Opus 4.8은 속도, 시각적 완성도, 자체 검증 능력 면에서 여전히 우수합니다. 비용과 개방성이 최우선이라면 GLM‑5.2를, 정확성·품질·시각 판단이 중요한 경우 Opus를 선택하세요.