Claude Fable 5 重新部署与 AI 网络安全框架

Claude Fable 5 重新部署与 AI 网络安全框架

随着出口管制解除,Claude Fable 5 回归

随着美国政府解除自 6 月 12 日以来暂停访问权限的出口管制,Anthropic 将从 7 月 1 日起在全球范围内重新部署 Claude Fable 5。此次暂停是因为美国政府缺乏实时验证用户国籍的方法,为了遵守针对外国公民的限制,必须进行全面停用。

Fable 5 将在 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork 上可用。对于 Pro、Max、Team 和部分 Enterprise 计划的用户,Fable 5 将在 7 月 7 日之前包含在每周使用限制的 50% 以内,之后将转为使用额度模式。通过 AWS、Google Cloud 和 Microsoft Foundry 的访问权限正在尽快恢复中。此外,随着美国政府在 6 月 26 日批准,针对特定美国组织的 Claude Mythos 5 访问权限也已恢复。

出口管制的触发因素:安全机制绕过

在美国研究人员发现一种可以绕过 Fable 5 安全机制的方法后,触发了美国的出口管制。该方法允许模型识别软件漏洞,并在一个案例中生成了漏洞利用代码。

Anthropic 随后的内部测试显示,这并非 Fable 5 的独特能力。公司发现,包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7 在内的其他几个模型也能识别相同的漏洞。此外,测试的每个模型,包括 Claude Haiku 4.5 以及各种 GPT 和 Kimi 版本,都能生成相同的漏洞利用演示。Anthropic 得出结论,报告的绕过行为允许访问的是常规的防御性网络安全工作,而非独特的攻击性能力。

网络安全防护措施与“安全裕度"

Anthropic 对 Fable 5 采用了“深度防御”策略,结合了通过模型训练拒绝危险请求以及事后滥用分析和使用安全分类器的方法。

分类器的角色

安全分类器是较小的 AI 系统,能够实时检测潜在有害的网络安全任务并阻止模型做出响应。为了最大限度地降低有害输出的风险,Anthropic 采用了“安全裕度”方法:

  • 标准裕度: 分类器会阻止明显有害或模糊不清(可能是防御性也可能是攻击性)的请求。
  • 扩展裕度 (Fable 5): 对于 Fable 5,Anthropic 显著增加了安全裕度,这意味着系统会阻止更大数量的良性请求,以确保几乎不会遗漏任何真正有害的请求。

这种方法会导致较高的误报率,即合法的编码和调试任务被标记为有害。为了应对 Amazon 的报告,Anthropic 训练了一个改进的安全分类器,可以在超过 99% 的情况下阻止报告的绕过技术。

理解越狱 (Jailbreaks)

Anthropic 根据其严重程度及其对安全裕度的影响对越狱进行分类:

  • 轻微越狱: 这些越狱允许用户进入安全裕度或访问模糊行为,但不会解锁核心有害行为。
  • 狭窄有害越狱: 这些越狱突破了分类器,以解锁特定的、有限的有害行为。
  • 通用越狱: 这些越狱会解锁一整类有害行为。Anthropic 表示,截至目前尚未发现针对 Fable 5 的通用越狱。

拟议的行业框架用于评估越狱严重程度

Anthropic 与 Amazon、Microsoft 和 Google 合作,正在开发一个共识框架,用于客观地为 AI 越狱的严重程度评分。该框架旨在为开发者提供一致的标准,以便对发现的结果进行分类,并为政府提供判断何时采取行动的依据。

拟议的评分系统根据四个标准进行评估:

  1. 能力增益: 越狱是否提供了显著超出目前广泛可用工具的能力?
  2. 能力增益的广度: 该技术是否适用于多个不同的攻击性任务,还是仅针对狭窄的目标?
  3. 武器化难度: 将越狱转化为攻击需要多少人力投入(提示词/重试次数)?
  4. 可发现性: 专家或公众获取该技术的难度有多大?

加强与美国政府的合作

Anthropic 启动了与美国政府的合作规模,以符合 6 月 2 日关于“促进先进人工智能创新与安全”的行政命令。此次合作包括四项主要承诺:

  1. 预发布访问权限: 在广泛发布之前,为政府合作伙伴提供模型和安全机制的早期访问权限,以便进行独立评估。

  2. 快速信息共享: 将重大的越狱行为或滥用模式通知政府对应部门,并分享用于独立测试的新安全机制。 \n3. 联合研究: 致力于将技术人员和计算资源投入到政府在 AI 安全方面的共同优先事项中。

  3. 共享行业标准: 致力于为前沿模型提供商建立自愿性的安全与评估标准。

Sources