规模瓶颈:为什么 GLM-5.2 在幻觉率方面优于 GPT-5.5

规模瓶颈:为什么 GLM-5.2 在幻觉率方面优于 GPT-5.5

最近的基准测试数据表明,增加参数量不再能保证可靠性的提升,因为一些规模最大的 AI 模型现在表现出比较小替代方案更高的幻觉率。具体而言,采用 MIT 许可的 GLM-5.2(753B 参数)表现出显著低于 GPT-5.5 和 DeepSeek V4 Pro 的幻觉率,这表明行业可能正在进入一个瓶颈期,即原始规模损害了不确定性校准能力。

大规模模型中的幻觉差距

当大型模型遇到无法回答的问题时,越来越容易产生“自信地错误”的回答。根据 AA-Omniscience 基准测试(该测试衡量模型在不知道答案时产生幻觉的频率),大规模专有模型与更高效的开源权重模型之间存在鲜明对比:

  • GPT-5.5: 86% 幻觉率
  • Fable 5: 48% 幻觉率
  • Opus 4.8: 36% 幻觉率
  • GLM-5.2: 28% 幻觉率
  • DeepSeek V4 Pro: 94% 幻觉率

这些数据表明,DeepSeek V4 Pro 和 GPT-5.5 在“我不知道”这类回答上表现挣扎。例如,DeepSeek V4 Pro 在无法得出答案的情况下,仅在约 6% 的案例中承认了无知,而选择在剩余的 94% 中产生幻觉。

智能瓶颈与规模三难困境

虽然最大的模型在原始智能评分方面通常仍处于领先地位,但差距正在缩小。在 Artificial Analysis Intelligence Index 上,尽管 GPT-5.5 和 Opus 4.8 的参数量估计在 1-2 万亿范围内,但 GLM-5.2(753B 参数,~40B 活跃参数)的表现与 GPT-5.5 仅差 4 分,与 Fable 5 仅差 9 分。

这种趋势表明现代 LLM 开发中存在一种“三难困境”,即实验室必须平衡三个相互竞争的因素:

  1. 原始能力: 模型的通用智能和问题解决能力。
  2. 不确定性校准: 模型识别自身局限性并避免幻觉的能力。
  3. 计算效率: 推理和训练的成本与速度。

案例研究:技术推理 vs. 计算浪费

针对复杂 Python 架构缺陷的实际测试显示,较大的模型可能会在错误的路径上浪费大量计算资源。在涉及一个在不进行让步或轮询的情况下执行多路复用 I/O 的单线程任务测试中,GLM-5.2 在 12 秒内使用约 800 个推理 token 使用了技术上的不可能实现性识别了出来。

相比之下,DeepSeek V4 Pro 在推理循环中花费了超过三分钟(3 分钟 26 秒),使用了接近 GLM-5.2 十倍的推理 token,结果却只产生了一个结构化但从根本上错误的解决方案。这表明,如果模型缺乏识别悖论的校准能力,更高的推理预算并不会本质上带来更准确的结论。

社区观点与反论点

关于这些发现的技术讨论突出了在如何解释幻觉和规模化时存在的几个细微差别:

幻觉指标的解释

一些分析师认为,幻觉率是有条件的,并不代表日常使用中错误的绝对概率。一位贡献者指出,虽然 GLM-5.2 在不知道答案时具有较低的幻觉率,但 Opus 4.8 具有更高的准确率(47% vs 25%),这意味着幻觉的绝对数量可能比百分比所暗示的更接近。

训练数据的角色

有一种盛行的理论认为,在精选的、事实性的语料库(如书籍)上训练的模型会认为每个问题都有答案,因为训练数据缺乏“无法回答”的问题或对无知的坦诚承认。

"在书中,你永远看不到一个问题承认没有答案,书本只是在进行推理并解释为什么以及如何得出该问题没有答案……实验室在倾向于寻找那些承认有解决方案的有趣答案,而低估了那些承认没有好答案的‘坏’问题。"

潜在解决方案

建议的改进措施包括使用来自可验证奖励的强化学习(RLVR)来在未发现正确推理路径时显式奖励“我不知道”这类回答,或者实现一个独立的“恐惧器官”(类似于人类的杏仁核)来发出不确定性信号并引导模型走向更安全的回答。

Sources