GLM 5.2 릴리스 노트 및 성능 분석

GLM 5.2 릴리스 노트 및 성능 분석

GLM 5.2는 프론티어 독점 LLM과 경쟁하는 고성능 오픈 웨이트 모델입니다

Z.AI는 GLM 5.2의 가중치를 출시하였으며, 전체 버전과 FP8 버전을 모두 제공합니다. 이 모델은 특히 긴 호흡의 작업(long-horizon tasks)을 위해 설계되었으며, 에이전트 코딩 및 프론트엔드 디자인 분야에서 여러 독점 모델과 대등하거나 이를 능가하는 성능을 보여줍니다.

벤치마크 성능 및 에이전트 능력

GLM 5.2는 이전 모델인 GLM 5.1에 비해, 특히 에이전트 코딩 분야에서 상당한 개선을 보여줍니다.

주요 벤치마크 통찰

  • 에이전트 코딩: GLM 5.1과 비교했을 때 에이전트 코딩 성능이 대폭 향상되었습니다. Deep SWE 벤치마크(SWE-Bench Pro의 대체제)에서 매우 높은 경쟁력을 보여줍니다.
  • 일반 지능: 일부 벤치마크에서 Anthropic의 Opus 4.8 및 OpenAI의 모델들에 뒤처지기도 하지만, 도구를 활용할 때 그 격차를 좁히고 있습니다.
  • Humanity's Last Exam: 도구 없이 사용할 경우, 모델 크기 제약으로 인해 Opus 4.8에 비해 성능이 떨어집니다.

Artificial Analysis를 통한 제3자 검증

Artificial Analysis 벤치마크에 따르면, GLM 5.2는 GLM 5.1 대비 성능이 비약적으로 도약했습니다. DeepSeek Pro, Qwen 3.7 Max, MiniMax M3를 포함한 여러 다른 오픈 및 독점 모델을 능가하며, 특정 지표에서는 GPT-5.5마저도 앞섭니다.

토큰 사용량 및 추론

Artificial Analysis 데이터에 따르면, GLM 5.2는 긴 사고 체인(CoT)에 크게 의존합니다. 추론 과정에서 DeepSeek, Kimi K 2.6, Fable보다 더 많은 토큰을 출력합니다. OpenAI가 주도하는 업계 트렌드가 토큰 출력을 줄이면서 높은 지능을 유지하는 방향으로 움직이고 있는 반면, GLM 5.2는 확장된 토큰 사용을 통해 높은 성능을 달성합니다.

특화된 강점: 디자인 및 장문 콘텐츠

GLM 5.2는 프론트엔드 개발 및 장문 생성 분야에서 탁월하며, Design Arena에서 높은 순위를 차지합니다.

  • 프론트엔드 디자인: 간단한 프롬프트만으로 애니메이션과 이미지가 포함된 복잡한 홈페이지를 생성할 수 있으며,

Sources