分析 Fable 与 Mythos：LLM 基准测试中的性能与能力

Fable 展示了卓越的代码编写与 Bug 检测能力

Fable 正逐渐成为处理复杂软件工程任务的高能力模型，特别是在其识别深层 Bug 并通过单次尝试实现大型功能的能力方面。用户报告称，Fable 能够检测到复杂环境（如 Qt C++ 应用程序）中的数据损坏 Bug，而其他领先模型（包括 GPT-5.5 xhigh、GLM-5.1、Kimi 2.7 和 DeepSeek V4 Pro）未能发现这些 Bug。

Fable 的关键性能优势包括：

单次功能实现 (One-shot Feature Implementation)：Fable 能够在单次对话中实现重大功能，减少了对 Codex 或 Opus 等模型所要求的“编写规范 $\rightarrow$ 完善规范 $\rightarrow$ 创建待办事项 $\rightarrow$ 实现待办事项”这种迭代工作流的需求。
持久性与自主性：与许多 LLM 不同，Fable 被描述为“更进一步”，在解决问题时表现出超出标准全局智能提升水平的持久性。
空间推理：用户注意到，空间推理是 Fable 区别于竞争对手的主要领域之一。

LLM 基准测试的对比分析

最近的基准测试数据揭示了模型性能报告和解读方式上的显著差异，特别是在某些排行榜上的“检测 %”排名方面。

排行榜中的统计异常

一些排名靠前的模型可能由于样本量较小或预算限制，而非实际能力而显得表现优越。例如，GPT-5.5 Pro 在某些场景下的高排名归因于在达到预算限制前仅完成了 4 个案例中的 2 个，从而导致了 50% 的成功率。当对二项分布比例置信区间应用 Wilson score interval 时，真正的领先者被确定为具有更高原始成功次数的模型，例如：

mimo-v2.5-pro
gpt-5.5
opus-4.8
gemini-3.5-flash
deepseek-v4

在此群体中，deepseek-v4 因其速度最快（91s）且最具成本效益而被视为获胜者。

AI Agent 的影响

与普遍假设相反，AI Agent 的集成并不会一致地提高结果。数据表明，没有任何一个模型在与 Agent 配对时表现得更好；在某些情况下，性能反而下降，而时间、Token 使用量和成本却显著增加。

Mythos 之争：安全性 vs. 能力

关于“Mythos”代表的是智能的根本飞跃，还是仅仅是移除了安全性约束的现有 LLM 技术的配置，目前存在持续的争论。

安全性约束与漏洞研究

一些分析师认为，Mythos 本质上是一个禁用了安全功能的标准 LLM。该理论认为，如果当前的模型不被限制搜索漏洞，其性能将反映 Mythos 的表现。这引发了对零日漏洞 (zero-day exploits) 可访问性的担忧，因为像 GLM-5.2 这样的模型可能会使非专家比 Fable 更有效地将漏洞武器化。

用户体验与模型“削弱” (Nerfing)

Claude 系列的用户报告了感知到的质量下降，将其描述为一个“脑叶切除术” (lobotomization) 或“削弱” (nerfing) 的过程。

"大约在二月左右，Opus 4.6 非常出色... 然后它被‘脑叶切除’了，在那次削弱之后它就再也没能恢复原状。4.7 出现了，它也很令人失望——不亚于 4.8... Fable 感觉像是重新获得了对那个‘旧 Opus’的访问权限，但变得更聪明了一些。"

这表明 Fable 可能恢复了 Opus 系列早期高性能迭代版本中那种主动且较少争辩的特性。

分析 Fable 与 Mythos：LLM 基准测试中的性能与能力

分析 Fable 与 Mythos：LLM 基准测试中的性能与能力

Fable 展示了卓越的代码编写与 Bug 检测能力

LLM 基准测试的对比分析

排行榜中的统计异常

AI Agent 的影响

Mythos 之争：安全性 vs. 能力

安全性约束与漏洞研究

用户体验与模型“削弱” (Nerfing)

Sources