GPT-5.5 Codex: 推理令牌集群與性能退化
GPT-5.5 Codex: 推理令牌集群與性能退化
GPT-5.5 Codex 表現出推理令牌集群現象
GPT-5.5 Codex 正經歷性能退化,其推理輸出令牌(reasoning output tokens)在約每 518 個令牌的固定間隔處出現集群現象。這種集群現象與複雜推理任務中的錯誤結果強烈相關,因為模型似乎在達到這些特定閾值時「短路」了其思考過程,而不是持續推理直到得出解決方案。
根據用戶 @maille 的原始報告,這種行為是 GPT-5.5 特有的;在 GPT-5.4 中較不明顯,而在 5.2 和 5.3 版本中幾乎不存在。
令牌集群的技術分析
證據顯示集群發生在特定的間隔,例如 516、1034 和 1552 個令牌。社群的技術分析建議,這些數字可能是服務端吞吐量優化(throughput optimizations)的結果,特別是將推理推論(reasoning inference)進行批處理(batching)為 512 個令牌的倍數。
由 @tyingq 提出的一種理論是,516 個令牌的標記代表一個初始的 512-byte 緩衝區加上 4-byte 的標頭(header),隨後的 518 個令牌增量則代表額外的緩衝區和元數據(例如鏈表引用)。
對推理品質與可靠性的影響
用戶報告稱,當模型達到這些集群閾值時,它經常對複雜的謎題或編碼任務返回錯誤答案。相比之下,當模型使用較大量的推理令牌(例如 6,000 到 8,000 個)時,通常能得出正確結果。
觀察到的失敗模式
- 短路現象: 在一個涉及概率謎題的測試案例中,用戶報告稱 10 次運行中有 5 次恰好產生了 516 個推理令牌並得到錯誤答案,而令牌數量較高的運行則成功了。
- 間歇性品質下降: 多位用戶報告品質出現「階梯式跳躍」(step jumps),即模型會間歇性地提供「極其愚蠢的實現方式」,導致一些用戶轉向使用 Claude 等替代模型。
- 版本比較: 一些用戶注意到,雖然 GPT-5.5 通常能力更強,但它消耗的令牌數量顯著多於 GPT-5.3,而有些人認為 GPT-5.3 是代碼碼品質與令牌效率之間最平衡的版本。
社群證據與驗證
用戶們已經開發出方法,使用 Codex CLI 來驗證這種退化。一位用戶提供了一個 Python 腳本來生成過去會話中 reasoning_output_tokens 的直方圖,這證實了在 516 個令牌標記處有一個明顯的峰值。
"I’ve definitely experienced step jumps down in quality on an almost daily basis... The experience of relying on codex’s outstandingly thorough coding earlier in the year has evaporated for me。" — @zenapollo
"This explains so much why gpt 5.5 has been so bad lately... it was really puzzling why it struggled so much where when it first came out it was one shotting stuff totally amazing。" — @zuzululu
與其他模型的比較
一些用戶將 GPT-5.5 Codex 的現狀與之前在其他前沿模型中看到的退化現象進行了比較,例如 4 月份的 Claude Code。其他人則指出,GPT 的加密推理內容的「黑盒」性質使得它比 DeepSeek 或 GLM 等推理更透明的模型更難進行調試。