スケーリングの停滞:なぜGLM-5.2はハルシネーション率においてGPT-5.5を凌駕するのか
スケーリングの停滞:なぜGLM-5.2はハルシネーション率においてGPT-5.5を凌駕するのか
最近のベンチマークデータは、パラメータ数の増加がもはや信頼性の向上を保証しないことを示しています。一部の最大規模のAIモデルは、現在、より小規模な代替モデルよりも高いハルシネーション率を示しています。具体的には、MITライセンスのGLM-5.2(753B parameters)は、GPT-5.5やDeepSeek V4 Proよりも大幅に低いハルシネーション率を示しており、これは、生のサイズが不確実性のキャリブレーションを損なうという停滞期に業界が直面している可能性を示唆しています。
大規模モデルにおけるハルシネーションの格差
大規模なモデルは、答えられない質問に遭遇した際、「自信満々に間違った」回答をする傾向がますます強まっています。答えを知らない場合にモデルがどの程度ハルシネーションを起こすかを測定するAA-Omniscienceベンチマークによると、巨大なプロプライエタリ・モデルと、より効率的なオープンウェイト・モデルとの間には、顕著なコントラストが存在します:
- GPT-5.5: 86% hallucination rate
- Fable 5: 48% hallucination rate
- Opus 4.8: 36% hallucination rate
- GLM-5.2: 28% hallucination rate
- DeepSeek V4 Pro: 94% hallucination rate
これらの数値は、DeepSeek V4 ProやGPT-5.5が「分からない」という回答に苦戦していることを示しています。例えば、DeepSeek V4 Proは、答えを導き出せなかったケースの約6%でしか無知を認めることができず、残りの94%でハルシネーションを起こすことを選択しました。
知能の停滞とスケーリングのトリレンマ
最大規模のモデルは、依然として生の知能スコアでは一般的にリードしていますが、その差は縮まっています。GPT-5.5やOpus 4.8が1-2兆パラメータの範囲内であると推定されているにもかかわらず、GLM-5.2(753B parameters, ~40B active)は、Artificial Analysis Intelligence Indexにおいて、GPT-5.5の4ポイント以内、Fable 5の9ポイント以内でパフォーマンスを発揮しています。
この傾向は、現代のLLM開発における「トリレンマ」を示唆しています。研究室は、以下の3つの相反する要因のバランスを取る必要があります:
- Raw Capability: モデルの一般的な知能と問題解決能力。
- Uncertainty Calibration: モデルが自身の限界を認識し、ハルシネーションを回避する能力。
- Computational Efficiency: 推論およびトレーニングのコストと速度。
ケーススタディ:技術的推論 vs. 計算資源の浪費
複雑なPythonのアーキテクチャ上の欠陥に関する実世界のテストでは、大規模なモデルは誤った経路に多大な計算資源を浪費する可能性があることが明らかになりました。単一スレッドのタスクで、yieldやpollingを行わずにマルチプレックスドI/Oを実行するタスクにおいて、GLM-5.2は、約800 reasoning tokensを使用して、12秒でそのタスクの技術的な不可能性を特定しました。
対照的に、DeepSeek V4 Proは、推論ループの中で3分以上(3分26秒)を費やし、GLM-5.2のほぼ10倍のreasoning tokensを使用しましたが、構造化されてはいるものの、根本的に誤った解決策を生成しました。これは、モデルがパラドックスを認識するためのキャリブレーションが欠けている場合、高い推論予算(reasoning budget)が必ずしも正確な結論に結びびつくわけではないことを示しています。
コミュニティの視点と反論
これらの知見に関する技術的な議論では、ハルシネーションとスケーリングの解釈におけるいくつかのニュアンスが強調されています:
ハルシネーション指標の解釈
一部のアナリストは、ハルシネーション率は条件付きであり、日常的な使用におけるエラーの絶対的な確率を表すものではないと主張しています。ある寄稿者は、GLM-5.2が答えを知らない場合にハルシネーション率が低い一方で、Opus 4.8はより高い正確性率(47% vs 25%)を持っていると指摘しました。これは、ハルシネーションの絶対数は、パーセンテージが示唆するよりも似通っている可能性があることを意味します。
トレーニングデータの役割
精選された事実に基づいたコーパス(本など)でトレーニングされたモデルは、すべての質問に答えがあるという学習をしてしまうという有力な説があります。これは、トレーニングデータに「答えられない」質問や、率直な無知の認容が不足しているためです。
"In a book you never see a question which admit no answer and the book just reasoning and explaining why and how the question has no answer... the labs has a bias for interesting answers that admit a solution and under represent the 'bad' questions that admit no good answer."
潜在的な解決策
提案されている改善策には、正解の推論トレースが見つからない場合に「分からない」という回答を明示的に報酬として与える、Verifiable Rewards(RLVR)を用いた強化学習、または、不確実性を信号として送り、モデルをより安全な回答に導くための、別個の「恐怖の器官」(人間の扁桃体のようなもの)を実装することなどが含まれます。