GPT-5.5 Codex: Reasoning-Token Clustering and Performance Degradation

GPT-5.5 Codex: Reasoning-Token Clustering and Performance Degradation

GPT-5.5 Codex exhibits reasoning-token clustering

GPT-5.5 Codex は、推論出力トークンが約 518 トークン間隔の固定値にクラスター化(集中)するという性能退行が発生しています。このクラスター化現象は、複雑な推論タスクにおける誤った結果と強く相関しており、モデルが解決策に到達するまで推論を続けるのではなく、これらの特定のしきい値で思考プロセスを「ショートサーキット(短絡)」させているようです。

ユーザー @maille による元の報告によると、この挙動は GPT-5.5 特有のものです。GPT-5.4 では大幅に減少しており、バージョン 5.2 および 5.3 ではほぼ完全に消失しています。

Technical analysis of token clustering

証拠は、クラスター化が 516、1034、1552 トークンといった特定のインターバルで発生することを示唆しています。コミュニティによる技術的分析では、これらの数値はサーバー側のスループット最適化、具体的には推論のバッチ処理を 512 トークンの倍数にまとめることの結果である可能性が示唆されています。

@tyingq によって提案された一つの理論では、516 トークンという値は、4 バイトのヘッダーを持つ初期の 512 バイトバッファを表しており、その後の 518 トークンごとの増加分は、追加のバッファやメタデータ(連結リストの参照など)を占めていると考えられます。

Impact on reasoning quality and reliability

ユーザーの報告によると、モデルがこれらのクラスター化のしきい値に達すると、複雑なパズルやコーディングタスクに対して頻繁に誤った回答を返すようになります。対照的に、モデルがより多くの推論トークンを使用する場合(例:6,000 から 8,000)、通常は正しい結果に到達します。

Observed failure patterns

  • Short-circuiting: 確率パズルを含む一つのテストケースにおいて、ユーザーは 10 回中 5 回の実行で、正確に 516 個の推論トークンが生成され誤った回答となった一方で、より高いトークン数での実行は成功したと報告しています。
  • Intermittent Quality Drops: 複数のユーザーが、品質の「ステップジャンプ(段階的な低下)」を報告しており、モデルが断続的に「信じられないほど愚かな実装」を提供するため、一部のユーザーは Claude のような代替モデルへ移行しています。
  • Version Comparison: 一部のユーザーは、GPT-5.5 は一般的に能力が高いものの、GPT-5.3 よりも大幅に多くのトークンを消費することに気づきました。GPT-5.3 は、コード品質とトークン効率のバランスが最も取れているバージョンであると考えるユーザーもいます。

Community evidence and verification

ユーザーは Codex CLI を使用してこの性能退行を検証する方法を開発しました。あるユーザーは、過去のセッションから reasoning_output_tokens のヒストグラムを生成する Python スクリプトを提供しましたが、これによって 516 トークン地点での目に見えるスパイク(急増)が確認されました。

"I’ve definitely experienced step jumps down in quality on an almost daily basis... The experience of relying on codex’s outstandingly thorough coding earlier in this year has evaporated for me." — @zenapollo

"This explains so much why gpt 5.5 has been so bad lately... it was really puzzling why it struggled so much where when it first came out it was one shotting stuff totally amazing." — @zuzululu

Comparison with other models

一部のユーザーは、現在の GPT-5.5 Codex の状態を、4 月に発生した Claude Code のような他のフロンティアモデルで見られた以前の性能退行と比較しています。他のユーザーは、GPT-5.5 の暗号化された推論内容の「ブラックボックス」的な性質が、推論がより透明な DeepSeek や GLM のようなモデルと比較して、デバッグをより困難にしていると指摘しています。

Sources