Fable과 Mythos 분석: LLM 벤치마킹에서의 성능 및 역량

Fable은 우수한 코딩 및 버그 탐지 역량을 입증함

Fable은 복잡한 소프트웨어 엔지니어링 작업, 특히 심층적인 버그를 식별하고 단 한 번의 시도로 대규모 기능을 구현하는 능력에서 매우 유능한 모델로 부상하고 있습니다. 사용자들은 Fable이 GPT-5.5 xhigh, GLM-5.1, Kimi 2.7, DeepSeek V4 Pro를 포함한 다른 주요 모델들이 찾아내지 못한 Qt C++ 애플리케이션과 같은 복잡한 환경에서의 데이터 손상 버그를 탐지할 수 있다고 보고하고 있습니다.

Fable의 주요 성능 장점은 다음과 같습니다:

One-shot Feature Implementation: Fable은 단 한 번의 턴에서 상당한 기능을 구현할 수 있어, Codex나 Opus와 같은 모델에서 요구되는 "write spec $\rightarrow$ refine spec $\rightarrow$ create todos $\rightarrow$ implement todos"와 같은 반복적인 워크플로우의 필요성을 줄여줍니다.
Persistence and Autonomy: 많은 LLM과 달리, Fable은 "한 걸음 더 나아가는" 것으로 묘사되며, 표준적인 글로벌 지능 향상을 넘어서는 문제 해결에서의 끈기(persistence)를 보여줍니다.
Spatial Reasoning: 사용자들은 공간 추론(spatial reasoning)이 Fable이 경쟁 모델들과 차별화되는 주요 영역이라고 언급했습니다.

LLM 벤치마크 비교 분석

최근 벤치마킹 데이터는 모델 성능이 보고되고 해석되는 방식, 특히 특정 리더보드에서의 "detect %" 순위에 상당한 차이가 있음을 보여줍니다.

리더보드에서의 통계적 이상 현상

일부 상위권 모델은 실제 역량보다는 적은 샘플 크기나 예산 제약으로 인해 우수해 보일 수 있습니다. 예를 들어, GPT-5.5 Pro의 일부 상황에서의 높은 순위는 예산 한도에 도달하기 전 4개 케이스 중 2개만 완료하여 50%의 성공률을 기록했기 때문입니다. 이항 분포 신뢰 구간의 하한값에 Wilson score interval을 적용할 때, 실제 리더는 다음과 같이 더 높은 원시 성공 횟수를 가진 모델들로 식별됩니다:

mimo-v2.5-pro
gpt-5.5
opus-4.8
gemini-3.5-flash
deepseek-v4

이 그룹 중에서 deepseek-v4는 가장 빠르고(91s) 비용 효율적이기 때문에 승자로 주목받고 있습니다.

AI 에이전트의 영향

일반적인 가정과는 달리, AI 에이전트의 통합이 결과를 일관적으로 개선하지는 않습니다. 데이터에 따르면 에이전트와 결합되었을 때 더 나은 성능을 보이는 모델은 없었으며, 일부 경우에는 성능이 감소하는 동시에 시간, 토큰 사용량 및 비용이 크게 증가했습니다.

Mythos 논쟁: 안전성 vs. 역량

"Mythos"가 지능의 근본적인 도약인지, 아니면 단순히 안전성 제약이 제거된 기존 LLM 기술의 구성인지에 대한 논쟁이 지속되고 있습니다.

안전성 제약 및 취약점 연구

일부 분석가들은 Mythos가 본질적으로 안전 기능이 비활성화된 표준 LLM이라고 주장합니다. 이 이론은 현재 모델들이 취약점을 검색하는 것이 제한되지 않는다면, 그 성능이 Mythos와 유사할 것이라고 시사합니다. 이는 zero-day exploits에 대한 접근성을 높여 GLM-5.2와 같은 모델이 비전문가도 Fable보다 더 효과적으로 취약점을 무기화할 수 있게 만들 수 있다는 우려를로 이어집니다.

사용자 경험 및 모델 "Nerfing"

Claude 제품군 사용자들은 시간이 지남에 따라 품질이 저하되는 것으로 느껴지는 "lobotomization" 또는 "nerfing" 과정을 묘사하며 품질 저하를 보고하고 있습니다.

"2월경, Opus 4.6은 매우 뛰어났습니다... 그 후 lobotomized 되었고, 그 nerf 이후로는 예전 같지 않았습니다. 4.7이 나왔지만 그 역시 실망스러웠습니다—4.8과 크게 다르지 않았죠... Fable은 마치 그 'old Opus'를 다시 접하는 것과 같았지만, 조금 더 똑똑해진 느낌이었습니다."

이는 Fable이 Opus 시리즈의 초기 고성능 반복 버전들이 가졌던 주도적이고 덜 논쟁적인 특성을 복원할 수 있음을 시사합니다.

Fable과 Mythos 분석: LLM 벤치마킹에서의 성능 및 역량

Fable과 Mythos 분석: LLM 벤치마킹에서의 성능 및 역량

Fable은 우수한 코딩 및 버그 탐지 역량을 입증함

LLM 벤치마크 비교 분석

리더보드에서의 통계적 이상 현상

AI 에이전트의 영향

Mythos 논쟁: 안전성 vs. 역량

안전성 제약 및 취약점 연구

사용자 경험 및 모델 "Nerfing"

Sources