GPT-5.5 Codex: 추론 토큰 클러스터링 및 성능 저하

GPT-5.5 Codex: 추론 토큰 클러스터링 및 성능 저하

GPT-5.5 Codex는 추론 토큰 클러스터링을 보입니다

GPT-5.5 Codex는 추론 출력 토큰이 약 518 토큰 간격으로 고정된 값에 클러스터링되는 성능 회귀 현상을 겪고 있습니다. 이 클러스터링 현상은 복잡한 추론 작업에서 잘못된 결과와 강하게 연관되어 있으며, 모델이 해결책에 도달할 때까지 계속 추론하는 대신 이러한 특정 임계값에서 "단락"되는 것으로 보입니다.

원래 @maille 사용자가 작성한 보고서에 따르면, 이 행동은 GPT-5.5에만 국한된 것이며 GPT-5.4에서는 현저히 적게 나타나고 5.2 및 5.3 버전에서는 거의 전혀 나타나지 않는다고 합니다.

토큰 클러스터링에 대한 기술 분석

증거에 따르면 클러스터링은 516, 1034, 1552 토큰과 같은 특정 간격에서 발생합니다. 커뮤니티의 기술 분석에 따르면 이러한 숫자는 서버 측 처리량 최적화, 특히 추론을 512 토큰 배수로 배치하는 것의 결과일 수 있습니다.

@tyingq가 제안한 한 이론은 516 토큰 지점이 4바이트 헤더가 있는 초기 512바이트 버퍼를 나타내며, 이후 518 토큰씩 증가하는 것은 추가 버퍼와 메타데이터(예: 연결 리스트 참조)를 고려한 것이라는 것입니다.

추론 품질 및 신뢰성에 미치는 영향

사용자들은 모델이 이러한 클러스터링 임계값에 도달하면 복잡한 퍼즐이나 코딩 작업에 대해 잘못된 답을 자주 반환한다고 보고합니다. 반면 모델이 더 많은 추론 토큰(예: 6,000~8,000)을 사용할 때는 일반적으로 올바른 결과에 도달합니다.

관찰된 실패 패턴

  • 단락화: 확률 퍼즐을 포함한 한 테스트 사례에서, 사용자는 10번 실행 중 5번이 정확히 516 추론 토큰과 잘못된 답을 반환했으며, 토큰 수가 더 높은 실행은 성공했다고 보고했습니다.
  • 간헐적인 품질 저하: 여러 사용자는 모델이 "믿을 수 없을 정도로 어리석은 구현"을 간헐적으로 제공하는 "품질 단계 점프"를 보고했으며, 이로 인해 일부는 Claude와 같은 대체 모델로 전환했습니다.
  • 버전 비교: 일부 사용자는 GPT-5.5가 일반적으로 더 능력 있지만 GPT-5.3보다 토큰을 크게 소비한다며, GPT-5.3이 코드 품질과 토큰 효율성 측면에서 가장 균형 잡힌 버전이라고 평가했습니다.

커뮤니티 증거 및 검증

사용자들은 Codex CLI를 사용해 이 저하를 검증하는 방법을 개발했습니다. 한 사용자는 과거 세션의 reasoning_output_tokens 히스토그램을 생성하는 파이썬 스크립트를 제공했으며, 516 토큰 지점에서 눈에 띄는 스파이크가 확인되었습니다.

"나는 거의 매일 품질이 급격히 떨어지는 것을 경험했습니다... 올해 초에 코덱스의 뛰어나게 철저한 코딩에 의존하던 경험이 사라졌습니다." — @zenapollo

"이것은 최근 GPT 5.5가 왜 이렇게 나빴는지 많은 것을 설명해 줍니다... 처음 나왔을 때는 완전히 놀라운 결과를 보여줬는데, 왜 이렇게 많이 어려워졌는지 정말 궁금했습니다." — @zuzululu

다른 모델과의 비교

일부 사용자는 현재 GPT-5.5 Codex의 상태를 다른 최전선 모델에서 보였던 이전 회귀와 비교했으며, 예를 들어 4월의 Claude Code가 있습니다. 또 다른 사용자들은 GPT의 암호화된 추론 내용이 "블랙 박스" 특성 때문에 DeepSeek나 GLM처럼 추론이 더 투명한 모델에 비해 디버깅이 더 어렵다고 지적했습니다.

요약: GPT-5.5 Codex는 고정된 간격(예: 516 토큰)에서 발생하는 추론 토큰 클러스터링과 연결된 성능 저하를 겪고 있으며, 이는 복잡한 추론을 단락시키는 서버 측 처리량 최적화와 관련이 있을 가능성이 있습니다.

제목: GPT-5.5 Codex: 추론 토큰 클러스터링 및 성능 저하

Sources