GPT-5.5 Codex: 推理令牌聚类与性能退化

GPT-5.5 Codex: 推理令牌聚类与性能退化

GPT-5.5 Codex 表现出推理令牌聚类现象

GPT-5.5 Codex 正在经历性能退化,其推理输出令牌在间隔约为 518 个令牌的固定值处出现聚类。这种聚类现象与复杂推理任务中的错误结果强相关,因为模型似乎在这些特定阈值处“短路”了其思考过程,而不是继续推理直到得出解决方案。

根据用户 @maille 的原始报告,这种行为是 GPT-5.5 特有的;它在 GPT-5.4 中明显较少见,而在 5.2 和 5.3 版本中几乎不存在。

令牌聚类的技术分析

证据表明,聚类发生在特定的间隔,例如 516、1034 和 1552 个令牌处。社区的技术分析表明,这些数字可能是服务器端吞吐量优化的结果,特别是将推理推理过程批量处理为 512 个令牌的倍数。

由 @tyingq 提出的一个理论是,516 令牌标记代表一个初始的 512 字节缓冲区,带有 4 字节头部,随后的 518 令牌增量则解释了额外的缓冲区和元数据(例如链表引用)。

对推理质量和可靠性的影响

用户报告称,当模型达到这些聚类阈值时,它经常对复杂的谜题或编程任务返回错误答案。相比之下,当模型使用较多数量的推理令牌(例如 6,000 到 8,000 个)时,通常能得出正确的结果。

观察到的失败模式

  • 短路: 在一个涉及概率谜题的测试案例中,一名用户报告称,10 次运行中有 5 次恰好产生了 516 个推理令牌并给出了错误答案,而令牌计数较高的运行则成功了。
  • 间歇性质量下降: 多名用户报告了质量上的“阶梯式跳变”,即模型会间歇性地提供“极其愚蠢的实现”,导致一些用户转向使用 Claude 等替代模型。
  • 版本比较: 一些用户注意到,虽然 GPT-5.5 通常能力更强,但它消耗的令牌比 GPT-5.3 显著更多,而一些人认为 GPT-5.3 是代码质量和令牌效率之间最平衡的版本。

社区证据与验证

用户们已经开发了使用 Codex CLI 验证这种退化的方法。一名用户提供了一个 Python 脚本来生成过去会话中 reasoning_output_tokens 的直方图,这证实了在 516 令牌标记处有一个明显的峰值。

"I’ve definitely experienced step jumps down in quality on an almost daily basis... The experience of relying on codex’s outstandingly thorough coding earlier in the year has evaporated for me。" — @zenapollo

"This explains so much why gpt 5.5 has been so bad lately... it was really puzzling why it struggled so much where when it first came out it was one shotting stuff totally amazing。" — @zuzululu

与其他模型的比较

一些用户将 GPT-5.5 Codex 的现状与之前在其他前沿模型中看到的退化现象进行比较,例如 4 月份的 Claude Code。其他人则指出,GPT 的加密推理内容具有“黑盒”性质,与 DeepSeek 或 GLM 等推理过程更透明的模型相比,更难进行调试。

Sources