스케일링 정체기: 왜 GLM-5.2가 환각률 측면에서 GPT-5.5를 능가하는가

스케일링 정체기: 왜 GLM-5.2가 환각률 측면에서 GPT-5.5를 능가하는가

최근 벤치마킹 데이터에 따르면 파라미터 수의 증가가 더 이상 신뢰성 향상을 보장하지 않으며, 일부 대규모 AI 모델은 이제 더 작은 대안 모델들보다 더 높은 환각률을 보이는 것으로 나타났습니다. 구체적으로, MIT 라이선스의 GLM-5.2 (753B parameters)는 GPT-5.5 및 DeepSeek V4 Pro보다 현저히 낮은 환각률을 보여주며, 이는 업계가 원시 크기가 불확실성 보정(uncertainty calibration)을 저해하는 정체기에 도달했을 수 있음을 시사합니다.

대규모 모델에서의 환각 격차

대규모 모델은 답을 알 수 없는 질문을 만났을 때 점점 더 "confidently incorrect" (확신에 찬 오답) 반응을 보이는 경향이 있습니다. 모델이 답을 모를 때 얼마나 자주 환각을 일으키는지 측정하는 AA-Omniscience 벤치마크에 따르면, 거대한 독점 모델과 더 효율적인 오픈 웨이트(open-weight) 모델 사이에 극명한 차이가 존재합니다:

  • GPT-5.5: 86% 환각률
  • Fable 5: 48% 환각률
  • Opus 4.8: 36% 환각률
  • GLM-5.2: 28% 환각률
  • DeepSeek V4 Pro: 94% 환각률

이 수치들은 DeepSeek V4 Pro와 GPT-5.5가 "모르겠습니다"라는 응답에 어려움을 겪고 있음을 나타냅니다. 예를 들어, DeepSeek V4 Pro는 답을 찾아낼 수 없는 경우의 약 6%에서만 무지를 인정했고, 나머지 94%에서는 환각을 일으키기로 선택했습니다.

지능 정체기와 스케일링 트리레마

가장 큰 모델들이 여전히 원시 지능 점수에서는 일반적으로 앞서고 있지만, 그 격차는 좁혀지고 있습니다. GPT-5.5와 Opus 4.8이 1-2조(trillion) 파라미터 범위로 추정됨에도 불구하고, GLM-5.2 (753B parameters, ~40B active)는 Artificial Analysis Intelligence Index에서 GPT-5.5와 4점 차이, Fable 5와 9점 차이 내로 성능을 발휘합니다.

이 트렌드는 현대 LLM 개발에서 연구소들이 세 가지 경쟁하는 요소를 균형 있게 조절해야 하는 "트리레마(trilemma)\

Sources