Claude Fable 5 Redeployment and AI Cybersecurity Framework

Claude Fable 5 Redeployment and AI Cybersecurity Framework

Claude Fable 5 Returns Following Lifted Export Controls

Anthropicは、6月12日からアクセスが停止されていた米国政府の輸出規制の解除を受け、7月1日からClaude Fable 5を全世界で再展開しています。この停止は、米国政府がユーザーの国籍をリアルタイムで確認する方法を欠いていたため、外国籍のユーザーに対する制限を遵守するために全面的なシャットダウンが必要となったことによるものです。

Fable 5は、Claude Platform、Claude.ai、Claude Code、およびClaude Coworkで利用可能になります。Pro、Max、Team、および一部のEnterpriseプランのユーザーは、7月7日まで週間の使用制限の最大50%までFable 5を利用できます。その後、使用量クレジットモデルに移行します。AWS、Google Cloud、およびMicrosoft Foundry経由のアクセスは、可能な限り迅速に復旧が進められています。さらに、6月26日の政府承認を受け、特定の米国組織に対してClaude Mythos 5へのアクセスが復旧しました。

The Trigger for Export Controls: Safeguard Bypasses

米国政府の輸出規制は、Amazonの研究者がFable 5のセーフガードを回避する方法を発見し、それによってモデルがソフトウェアの脆弱性を特定し、ある事例ではエクスプロイトコードを生成できることが判明したことで引き起こされました。

Anthropicのその後の内部テストでは、これがFable 5独自の能力ではないことが明らかになりました。同社は、Claude Opus 4.8、GPT-5.5、およびKimi K2.7を含む他のいくつかのモデルが、同じ脆弱性を特定できることを発見しました。さらに、Claude Haiku 4.5を含む、テストされたすべてのモデル(様々なGPTおよびKimiのバージョンを含む)が、同様のエクスプロイト実演を生成できることが判明しました。Anthropicは、報告された回避策は、独自の攻撃的な能力ではなく、日常的な防御的なサイバーセキュリティ業務へのアクセスを可能にするものであると結論付けました。

Cybersecurity Safeguards and the "Safety Margin"

Anthropicは、Fable 5に対して「defense in depth(多層防御)」戦略を採用しており、危険な要求を拒否するためのモデルトレーニングと、事後的な悪用分析およびセーフティ・クラシファイア(安全分類器)の利用を組み合わせています。

The Role of Classifiers

セーフティ・クラシファイアは、潜在的に有害なサイバーセキュリティ業務をリアルタイムで検出し、モデルが応答することをブロックする、より小規模なAIシステムです。有害な出力を最小限に抑えるため、Anthropicは「safety margin(安全マージン)」アプローチを採用しています。

  • Standard Margin: Classifiersは、明らかに有害であるか、あるいは曖昧な(防御的か攻撃的か判断できない)要求をブロックします。
  • Expanded Margin (Fable 5): Fable 5の場合、Anthropicは安全マージンを大幅に拡大しました。これは、システムが、真に有害な要求を逃さないようにするために、より多くの無害な要求をブロックすることを意味します。

このアプローチは、より高い偽陽性率(正当なコーディングやデバッグ作業が有害としてフラグが立てられること)をもたらします。Amazonの報告に対応するため、Anthropicは、報告された回避策を99%以上のケースでブロックする改良されたセーフティ・クラシファイアをトレーニングしました。

Understanding Jailbreaks

Anthropicは、ジェイルブレイク(脱獄)をその深刻度と安全マージンへの影響に基づいて分類しています。

  • Minor Jailbreaks: これらは、ユーザーが安全マージン内に入ったり、曖昧な挙動を可能にしたりしますが、核心的な有害な挙動を解除(unblock)はしません。
  • Narrow Harmful Jailbreaks: これらは、クラシファイアを突破して、特定の限定的な有害な挙動を解除します。
  • Universal Jailbreaks: これらは、有害な挙動のクラス全体を解除します。Anthropicは、現在までにFable 5に対するユニバーサル・ジェイルブレイクは発見されていないと述べています。

Proposed Industry Framework for Jailbreak Severity

Anthropicは、Amazon、Microsoft、およびGoogleと提携し、AIジェイルブレイクの深刻度を客観的にスコアリングするための合意形成フレームワークを開発しています。このフレームワークは、開発者が発見事項を分類(triage)し、政府がいつ行動すべきかを判断するための、一貫貫した標準を提供することを目的としています。

提案されているスコアリング・システムは、ジェイルブレイクを以下の4つの基準で評価します。

  1. Capability Gain: ジェイルブレイクによって、既存の広く利用可能なツールを大幅に超える能力が提供されるか?
  2. Breadth of Capability Gain: その技術は、複数の異なる攻撃的タスクに機能するか、それとも限定的なターゲットのみか?
  3. Ease of Weaponization: ジェイルブレイクを攻撃へと転換するために、どの程度の人間による努力(プロンプト/リトライ)が必要か?
  4. Discoverability: スペシャリストや一般市民がその技術を入手することはどの程度容易か?

Strengthening US Government Collaboration

Anthropicは、6月2日の「Advanced Artificial Intelligence Innovation and Securityを促進するための大統領令」に沿うため、米国政府との連携を強化しています。この連携には、主に4つのコミットメントが含まれています。

  1. Pre-release Access: 政府パートナーに対し、広範なリリース前のモデルやセーフガードの独立した評価のための、モデルやセーフガードへの早期アクセス権を提供します。
  2. Rapid Information Sharing: 重大なジェイルブレイクや悪用パターンを通知し、新しいセーフガードを安全にテストするための政府機関への通知を行います。
  3. Joint Research: AIセキュリティにおける政府の優先事項に対し、技術スタッフと計算リソースを割り当てます。
  4. Shared Industry Standards: フロンティア・モデル・プロバイダーのための、自発的なセキュリティおよび評価標準の策定に向けて取り組んでいます。

Sources