GLM-5.2 vs Claude Opus 4.8: 비용‑효율적인 오픈 모델 vs 더 빠른 클로즈드 모델의 3D WebGL 게임 테스트

GLM-5.2 vs Claude Opus 4.8: 비용‑효율적인 오픈 모델 vs 더 빠른 클로즈드 모델의 3D WebGL 게임 테스트

TL;DR

GLM-5.2는 Claude Opus 4.8의 약 5분의 1 가격으로 완전한 3D WebGL 플랫폼 게임을 생성할 수 있지만, Opus는 절반 정도의 시간에 작업을 마치고 스크린샷 자체 검증이 가능해 시각적으로 더 깔끔하고 기능적인 게임을 제공합니다.


정면 대결 테스트 개요

  • 작업: 원시 WebGL(엔진이나 3D 라이브러리 없이)로 3D 플랫폼 게임을 처음부터 만들라는 한 번의 프롬프트. 두 에이전트 모두 동일한 Kenney CC0 에셋을 받았습니다.
  • 모델: Z.ai GLM‑5.2 (텍스트 전용, 오픈 가중치, 1 M‑토큰 컨텍스트) vs. Anthropic Claude Opus 4.8 (멀티모달, 클로즈드).
  • 측정 지표:
    Metric GLM‑5.2 (Pi/OpenRouter) Opus (Claude Code)
    실제 빌드 시간 1 h 10 m 40 s 33 m 30 s
    출력 토큰 131 k 216 k
    피크 컨텍스트 사용량 1 M의 16 % 1 M의 19 %
    툴 호출 수 128 153
    비용 $5.39 (실제 청구) ~$21.92 (정가)
  • 결과: Opus가 더 빠르고 깔끔한 게임을 만들었으며, GLM‑5.2는 더 저렴하지만 다소 거친 결과물을 냈습니다.

모델 배경

GLM‑5.2

  • Z.ai에서 제공하는 오픈‑가중치 모델로 MIT 라이선스로 배포됩니다.
  • 텍스트 전용; 이미지를 처리할 수 없습니다.
  • 1 M‑토큰 컨텍스트 윈도우; 두 가지 “생각” 레벨(High, Max) 제공.
  • 1 M 토큰당 가격: 입력 $1.4, 캐시 읽기 $0.26, 출력 $4.4 – Opus의 약 5분의 1 수준.
  • 가중치는 Hugging Face와 ModelScope에서 제공되며, vLLM, SGLang, Transformers 등으로 로컬 실행 가능.

Claude Opus 4.8

  • Anthropic에서 제공하는 클로즈드 멀티모달 모델.
  • 이미지 입력을 지원해 시각적 자체 검증이 가능합니다.
  • 1 M 토큰당 가격: 입력 $5, 캐시 읽기 $0.50, 출력 $25.
  • 높은 비용에 비해 더 다듬어진 결과물을 제공합니다.

상세 테스트 결과

빌드 시간 및 비용

Opus는 WebGL 프로젝트를 33 분 안에 완료했으며, 예상 비용은 $21.92였습니다. GLM‑5.2는 1 시간 11 분이 걸렸고 비용은 $5.39였습니다. 타임랩스(기사 참고)에서는 Opus가 GLM‑5.2 실행 시간의 절반 정도에서 작업을 마치는 모습을 확인할 수 있습니다.

게임플레이 품질

GLM‑5.2

  • 시각적 완성도가 거침; 캐릭터가 회색이며 텍스처가 누락됨.
  • 스파이크 함정이 플레이어를 죽이지 않음.
  • 깃발에 도달해도 승리 조건이 발동되지 않음.
  • 스프링 메커니즘은 정상 작동.

Opus

  • 텍스처가 깔끔하고 조명이 적절하며 애니메이션이 부드러움.
  • 스파이크 함정이 플레이어를 죽임(경로 밖에 배치됨).
  • 깃발에 도달하면 승리 조건이 활성화.
  • 작은 엣지‑케이스 버그: 얇은 공중에 서 있을 수 있는 코요테‑타임, 깃발 전에 조기 승리 트리거.

자체 검증

  • Opus는 스크린샷을 캡처하고 검토한 뒤 남아있는 디버그 오버레이를 제거하고 작업을 마무리했습니다.
  • GLM‑5.2는 이미지를 볼 수 없어 숫자 픽셀 샘플링 해킹을 시도했지만, 텍스처와 오버레이가 누락된 상태에서도 게임이 정상이라고 잘못 판단했습니다.

"final_start/overview/flag.png 분석 결과 색상: 풀 초록, 흙 갈색, 코인 금색, 깃발 빨강, 캐릭터 청색빛, 반 Lambert 조명, 검정 없음" – GLM‑5.2의 자체 검증은 시각적 결함을 놓쳤습니다.


벤치마크 비교

Benchmark GLM‑5.2 Opus 4.8
Reasoning
HLE (w/ tools) 54.7 57.9*
AIME 2026 99.2 95.7
GPQA‑Diamond 91.2 93.6
IMOAnswerBench 91.0 83.5
Coding
SWE‑bench Pro 62.1 69.2
NL2Repo 48.9 69.7
DeepSWE 46.2 58
ProgramBench 63.7 71.9
Terminal Bench 2.1 (best harness) 82.7 78.9
SWE‑Marathon 13.0 26.0
Agentic
MCP‑Atlas (public) 76.8 77.8
Tool‑Decathlon 48.2 59.9

GLM‑5.2는 여러 추론 및 코딩 과제(AIME, IMOAnswerBench, NL2Repo 등)에서 오픈‑가중치 모델 중 선두에 서지만, 대부분의 코딩 및 에이전트 벤치마크에서는 Opus에 뒤처집니다.


커뮤니티 반응

  • Simon Willison은 GLM‑5.2가 *"아마도 가장 강력한 텍스트‑전용 오픈 가중치 LLM"*이라고 평가했으며, 자전거를 탄 펠리컨의 완벽한 애니메이션 SVG를 생성한 사례를 언급했습니다.
  • Artificial Analysis는 GLM‑5.2를 인텔리전스 인덱스에서 최고 오픈‑가중치 모델(점수 51)으로 선정했지만, 작업당 약 43 k 출력 토큰이라는 높은 토큰 소비량을 지적했습니다.
  • Nathan Lambert는 오픈 모델과 클로즈드 모델 간 격차가 좁혀지고 있음을 강조하며, GLM‑5.2가 Gemini 대비 강력한 에이전트 성능을 보여준다고 언급했습니다.

실용적인 시사점

  1. 비용 vs. 속도 – 예산이 제한되고 작업이 주로 논리적이거나 텍스트 기반이라면 GLM‑5.2가 매력적인 가격대를 제공합니다.
  2. 시각적 검증의 중요성 – 시각적 산출물을 만드는 작업에서는 Opus와 같은 멀티모달 모델이 텍스트 전용 모델이 놓치는 오류를 잡아낼 수 있습니다.
  3. 오픈‑가중치의 장점 – GLM‑5.2의 MIT‑라이선스 가중치는 무기한 자체 호스팅이 가능해 공급업체 종속성을 방지합니다.
  4. 하이브리드 워크플로 – 대량의 저비용 생성은 GLM‑5.2로 수행하고, 최종 다듬기와 시각 QA는 멀티모달 모델에 맡기는 방식이 효율적입니다.

결론

GLM‑5.2는 오픈‑가중치 모델이 이제 비용 대비 선도적인 클로즈드 모델에 비해 복잡하고 다단계 코딩 작업을 수행할 수 있음을 보여줍니다. 그러나 Claude Opus 4.8은 속도, 시각적 완성도, 자체 검증 능력 면에서 여전히 우수합니다. 비용과 개방성이 최우선이라면 GLM‑5.2를, 정확성·품질·시각 판단이 중요한 경우 Opus를 선택하세요.

Sources