規模化高原:為何 GLM-5.2 在幻覺率方面優於 GPT-5.5

規模化高原:為何 GLM-5.2 在幻覺率方面優於 GPT-5.5

最近的基準測試數據顯示,增加參數數量不再保證可靠性的提升,因為一些規模最大的 AI 模型現在表現出比較小替代方案更高的幻覺率。具體而言,採用 MIT 授權的 GLM-5.2 (753B parameters) 展現出顯著低於 GPT-5.5 和 DeepSeek V4 Pro 的幻覺率,這表明產業可能正進入一個高原期,即原始規模會損害不確定性校準。

大型模型中的幻覺差距

當大型模型遇到無法回答的問題時,越來越容易產生「自信地錯誤」的回答。根據衡量模型在不知道答案時發生幻覺頻率的 AA-Omniscience 基準測試,大規模專有模型與更高效的開源權重模型之間存在著鮮明的對比:

  • GPT-5.5: 86% 幻覺率
  • Fable 5: 48% 幻覺率
  • Opus 4.8: 36% 幻覺率
  • GLM-5.2: 28% 幻覺率
  • DeepSeek V4 Pro: 94% 幻覺率

這些數據表明 DeepSeek V4 Pro 和 GPT-5.5 在「我不知道」的回答上非常吃力。例如,DeepSeek V4 Pro 在無法得出答案的情況下,僅在大約 6% 的案例中承認無知,其餘 94% 的情況都選擇了幻覺。

智能高原與規模化三難困境

雖然最大的模型在原始智能分數上通常仍保持領先,但差距正在縮小。儘管 GPT-5.5 和 Opus 4.8 的參數規模估計在 1-2 兆 (trillion) 範圍內,但在 Artificial Analysis Intelligence Index 上,GLM-5.2 (753B parameters, ~40B active) 的表現與 GPT-5.5 僅差 4 分,與 Fable 5 僅差 9 分。

這趨勢表明現代 LLM 開發中存在一個「三難困境」:實驗室必須在三個相互競爭的因素之間取得平衡:

  1. 原始能力 (Raw Capability): 模型的通用智能與問題解決能力。
  2. 不確定性校準 (Uncertainty Calibration): 模型識別自身局限性並避免幻覺的能力。
  3. 計算效率 (Computational Efficiency): 推理與訓練的成本與速度。

個案研究:技術推理與計算浪費

針對複雜 Python 架構缺陷的實際測試顯示,較大的模型可能會在錯誤的路徑上浪費大量的計算資源。在一個涉及單執行緒任務執行多路複用 I/O 且不進行讓步 (yielding) 或輪詢 (polling) 的測試中,GLM-5.2 在 12 秒內使用約 800 個推理 token 使用了技術上的不可能,並識別出了該任務的技術不可行性。

相比之下,DeepSeek V4 Pro 花費了超過三分鐘(3 分 26 秒)進行推理迴圈,使用了接近 GLM-5.2 十倍的推理 token,結果僅產生了一個結構化但從根本上錯誤的解決方案。這證明了如果模型缺乏識別悖論的校準能力,較高的推理預算並不必然導致更準確的結論。

社群觀點與反論

關於這些發現的技術討論突顯了如何解讀幻覺與規模化之間的幾種細微差別:

幻覺指標的解讀

一些分析師認為,幻覺率是條件性的,並不代表日常使用中的絕對錯誤機率。一位貢獻者指出,雖然 GLM-5.2 在不知道答案時的幻覺率較低,但 Opus 4.8 的準確率更高 (47% vs 25%),這意味著幻覺的絕對數量可能比百分比所暗示的更接近。

訓練數據的角色

有一種盛行的理論認為,在精選且具備事實性的語料庫(如書籍)上訓練的模型,會學到「每個問題都有答案」的這種觀念,因為訓練數據中缺乏「無法回答」的問題或坦率承認無知的範例。

"在書中你從未見過一個問題是承認沒有答案且書中僅僅是推理並解釋為什麼以及如何該問題沒有答案... 實驗室對於那些承認有解的、有趣的回答有偏好,而低估了那些承認沒有好答案的『糟糕』問題。"

潛在解決方案

建議的改進方法包括使用來自可驗證獎勵的強化學習 (Reinforcement Learning from Verifiable Rewards, RLVR) 來在找不到正確推理路徑時明確獎勵「我不知道」的回答,或者實量化一個獨立的「恐懼器官」(類比於人類的杏仁核)來發出不確定性信號,並引導模型走向更安全的回答。

Sources