FableとMythosの分析:LLMベンチマークにおけるパフォーマンスと能力

FableとMythosの分析:LLMベンチマークにおけるパフォーマンスと能力

Fableは優れたコーディングおよびバグ検出能力を実証している

Fableは、複雑なソフトウェアエンジニアリングタスク、特に根深いバグを特定し、一度のパスで大規模な機能を実装する能力において、非常に有能なモデルとして台頭しています。ユーザーの報告によると、Fableは、GPT-5.5 xhigh、GLM-5.1、Kimi 2.7、DeepSeek V4 Proを含む他の主要なモデルが発見できなかった、Qt C++アプリケーションのような複雑な環境におけるデータ破損バグを検出できるとのことです。

Fableの主なパフォーマンス上の利点は以下の通りです:

  • One-shot Feature Implementation: Fableは、単一のターンで重要な機能を実装することが可能であり、CodexやOpusのようなモデルに必要とされる「仕様を記述 $\rightarrow$ 仕様を洗練 $\rightarrow$ TODOリストを作成 $\to$ TODOを実装」という反復的なワークフローの必要性を軽減します。
  • Persistence and Autonomy: 多くのLLMとは異なり、Fableは「さらなる一歩を踏み出す」と表現されており、標準的なグローバルな知能の向上を超えた、問題解決における粘り強さを示しています。
  • Spatial Reasoning: ユーザーは、空間推論がFableが競合他社と差別化される主要な領域であると指摘しています。

LLMベンチマークの比較分析

最近のベンチマークデータは、モデルのパフォーマンスがどのように報告され、解釈されるかについて、特に特定のリーダーボードにおける「detect %」のランキングに関して、大きな乖離があることを明らかにしています。

リーダーボードにおける統計的異常

一部の上位ランクのモデルは、実際の能力ではなく、サンプルサイズの小ささや予算の制約によって優れているように見える場合があります。例えば、GPT-5.5 Proは、一部のコンテキストにおいて予算制限に達する前に4ケース中2ケースのみを完了したため、50%の成功率となり、高いランキングを得ています。二項比率信頼区間の下限にWilson score intervalを適用すると、真のリーダーは、以下のような、より高い生の成功回数を持つモデルとして特定されます:

  • mimo-v2.5-pro
  • gpt-5.5
  • opus-4.8
  • gemini-3.5-flash
  • deepseek-v4

このグループの中で、deepseek-v4は、最も高速(91s)かつ最もコスト効率が良いことから、勝者として注目されています。

AIエージェントの影響

一般的な想定とは異なり、AIエージェントの統合は、一貫して結果を改善するわけではありません。データは、エージェントとペアになった際にパフォーマンスが向上するモデルは存在しないことを示唆しています。場合によっては、パフォーマンスが低下し、一方で時間、トークン使用量、およびコストが大幅に増加したケースもあります。

Mythos論争:安全性 vs. 能力

「Mythos」が知能の根本的な飛躍を意味するのか、それとも単に既存のLLM技術の安全性制約を解除した構成なのかについて、継続的な議論が行われています。

安全性制約と脆弱性リサーチ

一部のアナリストは、Mythosは本質的に、安全性機能を無効にした標準的なLLMであると主張しています。この理論は、現在のモデルが脆弱性を探すことを制限されていない場合、そのパフォーマンスがMythosの性能を反映することを示唆しています。これは、ゼロデイ脆弱性のアクセシビリティに関する懸念を引き起こします。例えば、GLM-5.2のようなモデルは、非専門家がFableよりも効果的に脆弱性を武器化(weaponize)できる可能性をあります。

ユーザーエクスペリエンスとモデルの「ナーフ(Nerfing)」

Claudeファミリーのユーザーは、時間の経過とともに品質が低下していると感じており、「脳切除(lobotomization)」または「ナーフ(nerfing)」と呼ばれるプロセスについて報告しています。

"Opus 4.6は2月頃、非常に優れているでした... その後、ナーフ(nerf)を受けて、脳切除(lobotomization)されたようになり、それ以降は以前のようには戻りませんでした。4.7が登場しましたが、それも期待外れでした。4.8も同様です... Fableは、以前のOpusに再びアクセスできるようになったような感覚を与えますが、少しだけ賢くなっています。"

これは、FableがOpusシリーズの初期の高パフォーマンスな反復(iteration)の、積極的かつ議論の少ない性質を定請める可能性があることを示唆しています。

Sources