分析 Claude API 故障:错误率与基础设施压力

分析 Claude API 故障:错误率与基础设施压力

大语言模型 (LLM) API 的可靠性是现代软件开发的关键支柱,尤其是随着 Claude Code 等工具将这些模型直接集成到工程工作流中时。当这些服务出现故障时,其连锁反应会立即波及数以千计的自动化系统和开发者环境。

2026 年 5 月 15 日,Anthropic 经历了其多个旗舰模型错误率升高的时期。虽然该事件被相对较快地解决了,但它凸显了模型能力与基础设施稳定性之间持续存在的紧张关系。

事件时间线

此次中断主要影响了 Claude API (api.anthropic.com) 和 Claude Code。根据官方状态更新,该事件经历了识别和解决的几个阶段:

  • 调查阶段: 问题最初被标记为对错误率升高的调查。
  • 识别阶段: Anthropic 确定了对 Claude Opus 和 Sonnet 4.6 的请求都受到了具体影响。
  • 恢复阶段: 恢复分阶段进行。Opus 4.7 和 Sonnet 4.6 首先恢复了正常的成功率,随后是 Claude Opus 4.6 的最终解决。

技术影响:"过载" 错误

在故障期间,用户报告收到 overloaded_error 消息。这种特定的错误通常表明系统无法处理当前的请求量,指向的是容量或调度瓶颈,而非模型本身的逻辑错误。

一位开发者在其遥测数据中注意到了一种特定的模式,表明提供商可能试图通过缓存来减轻负载:

我可以看到在几分钟前我的缓存命中率出现了一个奇怪的峰值,所以这实际上可能是他们投入使用的一些额外缓存。

从系统工程的角度来看,这凸显了“重试风暴”的危险。当 API 返回过载错误时,客户端系统通常会实现指数退避。然而,如果大量客户端同时进行重试,它们可能会在无意中创造出第二波流量,使系统保持在过载状态,从而阻止其自然恢复。

开发者体验与依赖风险

此次故障引发了开发者社区关于过度依赖云端 AI 服务风险的更广泛讨论。随着越来越多的组织将其工程能力转向依赖云端的智能体 (agents),缺乏本地开发替代方案成为了一个负担。

社区讨论中出现了几个关键的争论点:

1. 本地与云端的权衡

对于在云服务宕机时无法进行本地开发的不满情绪正在增长。完全转向依赖远程推理意味着,单次 API 故障就能让整个工程团队的生产力陷入停滞。

2. 容量与扩展

用户表达了希望新的基础设施合作伙伴关系(例如提到的关于 xAI 容量的部分)能够缓解这些瓶颈。文中提到了“增加车道悖论”——即增加容量有时会吸引更多需求,从而导致回到同样的拥堵问题。

3. 沟通与 DevRel

除了技术故障外,一些用户还批评了 Anthropic 领导层和开发者关系 (DevRel) 的沟通风格,并将其与竞争对手进行了比较,认为更透明且积极的反馈循环可以减轻因技术不稳定带来的挫败感。

结论

虽然 5 月 15 日的事件在几小时内得到了解决,但它提醒了当前 AI 基础设施的脆弱性。对于基于这些模型构建的开发者来说,实施稳健的错误处理、熔断器 (circuit breakers) 以及探索本地/云端混合策略,对于确保在面对不可避免的提供商故障时业务的连续性仍然至关重要。

Sources