追踪 AI 模型性能:关于“削弱”与 Elo 等级的真相

追踪 AI 模型性能:关于“削弱”与 Elo 等级的真相

The AI 发展速度之快,常让用户觉得他们喜爱的模型正在发生变化。AI 社区中一个普遍的情绪是模型正在被“削弱”(nerfed)——即通过静默更新使其变得更具限制性、能力更弱,或者为了节省计算成本而进行更重的量化。为了追踪这些趋势,Arena AI Model ELO History 项目为各大 AI 实验室推出的最高评分旗舰模型提供了随时间变化的视觉映射。

理解 Arena Elo 历史记录

该项目从 Hugging Face 上的 LM Arena Leaderboard Dataset 获取数据,追踪旗舰系列模型的性能。与提供当前排名快照的标准排行榜不同,此历史图表侧重于每个实验室顶级表现模型的轨迹。

为了保持信号清晰,该项目采用了几项逻辑规则:

  • 旗舰重点: 曲线追踪该实验室中评分最高的旗舰级模型。如果发布了中端模型,曲线仍将保持在顶级模型上(例如,Opus 高于 Sonnet)。
  • 变体合并: 同一模型的不同模式(例如 -thinking-reasoning 变体)被合并为一个数据点,以防止出现剧烈波动。
  • 趋势可见性: 新发布的模型被标记为不同的点,允许用户查看新模型发布对总分产生的即时影响。

“削弱”之争:感知与现实

该项目的主要动机之一是揭示诸如行为退化或激进审查等“隐藏趋势”。然而,数据和随之而来的社区讨论揭示了用户感知与技术现实之间复杂的紧张关系。

API 与 Web UI 的差距

LMSYS Arena 使用的原始 API 端点与面向消费者的 Web 界面(如 ChatGPT 或 Gemini)之间存在关键区别。Web 界面通常包含系统提示词(system prompts)、安全过滤器和 UI 封装,而这些在 API 中并不存在。这意味着用户在浏览器中可能会体验到“被削弱”的模型,而原始模型的 API 性能却保持稳定。

Elo 等级的本质

讨论中的几位贡献者指出,人们对 Elo 等级的工作原理存在根本性的误解。因为 Elo 是一种相对指标,即使模型的绝对性能保持不变,其得分也可能会下降。

Elo 等级系统衡量的是相对于其他模型的性能。随着其他模型的进步……即使模型本身或其系统提示词没有任何变化,给定现有模型的 Elo 分数也往往会趋于下降。

在这种情况下,图表上的下降趋势并不一定意味着模型变差了,而是意味着其他领域的竞争者变得更强了。

社区见解与反论点

数据引发了关于全球 AI 发展格局的各种观点:

  • 一致性与竞争: 一些观察者指出,Anthropic 表现出了随时间推移更一致的进步,可能正在追赶或超越一些人认为已经进入平台期的 OpenAI 和 Google。
  • 全球趋势: 一些用户建议,中国模型和 Mistral 并没有表现出与美国模型相同的下降趋势,尽管这仍是一个争议点。
  • 运营完整性: 一名 OpenAI 员工反驳了关于模型在高峰负载期间为了节省计算量而进行静默量化的说法,称“你应该得到你所支付的服务”,并否认了任何“邪恶的时段性诡计”。
  • “助人性”陷阱: 有人担心,在 Arena 数据上训练的模型可能会趋向于“助人性”(讨好人类评估者)而非“助真性”(事实准确性)。

结论

虽然 Arena AI Model ELO History 为可视化竞争格局提供了有价值的工具,但它提醒我们,解读 AI 基准测试是困难的。无论是模型的性能在下降,还是由于 Elo 等级的相对性质,原始 API 与精修的消费者产品之间的差距,仍然是终端用户面临的最大不确定性领域。

Sources