Claude Fable 5 重新部署與 AI 資安框架

Claude Fable 5 隨出口管制解除而回歸

隨著美國政府解除自 6 月 12 日起暫停存取的出口管制，Anthropic 將從 7 月 1 日起在全球重新部署 Claude Fable 5。此次暫停是因為美國政府缺乏即時驗證使用者國籍的方法，為了遵守對外籍人士的限制，必須進行全面關閉。

Fable 5 將可在 Claude Platform、Claude.ai、Claude Code 與 Claude Cowork 上使用。對於 Pro、Max、Team 與特定 Enterprise 計畫的使用者，Fable 5 將在 7 月 7 日前包含在最高 50% 的每週使用限制內，之後將轉為使用額度模式。透過 AWS、Google Cloud 與 Microsoft Foundry 的存取權正被盡快恢復中。此外，隨著美國政府於 6 月 26 日批准，Claude Mythos 5 的存取權已為特定美國組織恢復。

出口管制的觸發因素：規避安全措施

在 Amazon 研究人員發現一種規避 Fable 5 安全措施的方法後，觸發了美國的出口管制。該方法允許模型識別軟體漏洞，並在一個案例中產生了漏洞利用程式碼（exploit code）。

Anthropic 隨後的內部測試顯示，這並非 Fable 5 的獨有能力。該公司發現包括 Claude Opus 4.8、GPT-5.5 與 Kimi K2.7 在內的其他幾款模型都能識別相同的漏洞。此外，所有經過測試的模型，包括 Claude Haiku 4.5 以及各種 GPT 與 Kimi 版本，都能產生相同的漏洞利用演示。Anthropic 結論認為，所報告的規避行為僅是允許存取常規的防禦性資安工作，而非獨特的攻擊性能力。

資安防護措施與「安全邊際」

Anthropic 為 Fable 5 採用了「縱深防禦」策略，結合了拒絕危險請求的模型訓練，以及事後的誤用分析與安全分類器（safety classifiers）的使用。

分類器的角色

安全分類器是較小的 AI 系統，能即時偵測潛宜有害的資安任務並阻止模型回應。為了將有害輸出之風險降至最低，Anthropic 採用了「安全邊際」方法：

標準邊際 (Standard Margin)： 分類器會阻止明顯有害或模糊不清（可能是防禦性或攻擊性）的請求。
擴展邊際 (Expanded Margin, Fable 5)： 對於 Fable 5，Anthropic 大幅增加了安全邊際，這意味著系統會阻止較大量的良性請求，以確保幾乎不會錯過任何真正有害的請求。

這種方法會導致較高的誤報率（false-positive rates），即合法的編碼與除錯任務會被標記為有害。為了應對 Amazon 的報告，Anthropic 訓練了一款改進的安全分類器，能在超過 99% 的案例中阻止該報告所述的規避技術。

理解越獄 (Jailbreaks)

Anthropic 將越獄行為根據其嚴重程度及其對安全邊際的影響進行分類：

輕微越獄 (Minor Jailbreaks)： 這些行為允許使用者進入安全邊際或存取模糊行為，但不會解除對核心有害行為的限制。
狹窄有害越獄 (Narrow Harmful Jailbreaks)： 這些行為突破了分類器，以解除特定且有限的有害行為限制。
通用越獄 (Universal Jailbreaks)： 這些行為會解除一整類有害行為的限制。Anthropic 表示，目前尚未發現 Fable 5 存在通用越獄。

建議的產業框架用於評估越獄嚴重程度

Anthropic 與 Amazon、Microsoft 與 Google 合作，正在開發一套共識框架，用以客觀地評分越獄行為的嚴重程度。該框架旨在為開發者提供一致的標準，以便進行發現的分類，並為政府提供判斷何時採取行動的依據。

建議的評分系統根據四項標準進行評估：

能力增益 (Capability Gain)： 越獄是否提供了顯著超越現有廣泛可用工具的能力？
能力增益廣度 (Breadth of Capability Gain)： 該技術是否適用於多個不同的攻擊性任務，或僅針對狹窄目標？
武器化難易度 (Ease of Weaponization)： 將越獄轉化為攻擊行為需要多少人力投入（提示詞/重試次數）？
可發現性 (Discoverability)： 專家或一般大眾獲取該技術的難易程度為何？

加強與美國政府的合作

Anthropic 正在擴大與美國政府的合作，以符合 6 月 2 日關於「促進先進人工智慧創新與安全」的行政命令。此合作包括四項主要承諾：

預發布存取權 (Pre-release Access)： 在廣泛發布前，為政府合作夥伴提供模型與安全措施的早期存取權，以便進行獨立評估。

快速資訊共享 (Rapid Information Sharing)： 通知政府對應部門關於重大越獄或誤用模式，並分享新的安全措施以供獨立測試。

共同研究 (Joint Research)： 投入技術人員與運算資源，以應對政府在 AI 資安方面的共同優先事項。
產業標準共享 (Shared Industry Standards)： 朝著為前沿模型提供商建立自願性安全與評估標準的方向努力。

Claude Fable 5 重新部署與 AI 資安框架

Claude Fable 5 重新部署與 AI 資安框架

Claude Fable 5 隨出口管制解除而回歸

出口管制的觸發因素：規避安全措施

資安防護措施與「安全邊際」

分類器的角色

理解越獄 (Jailbreaks)

建議的產業框架用於評估越獄嚴重程度

加強與美國政府的合作

Sources