Claude Fable 5 重新部署與 AI 資安框架
Claude Fable 5 重新部署與 AI 資安框架
Claude Fable 5 隨出口管制解除而回歸
隨著美國政府解除自 6 月 12 日起暫停存取的出口管制,Anthropic 將從 7 月 1 日起在全球重新部署 Claude Fable 5。此次暫停是因為美國政府缺乏即時驗證使用者國籍的方法,為了遵守對外籍人士的限制,必須進行全面關閉。
Fable 5 將可在 Claude Platform、Claude.ai、Claude Code 與 Claude Cowork 上使用。對於 Pro、Max、Team 與特定 Enterprise 計畫的使用者,Fable 5 將在 7 月 7 日前包含在最高 50% 的每週使用限制內,之後將轉為使用額度模式。透過 AWS、Google Cloud 與 Microsoft Foundry 的存取權正被盡快恢復中。此外,隨著美國政府於 6 月 26 日批准,Claude Mythos 5 的存取權已為特定美國組織恢復。
出口管制的觸發因素:規避安全措施
在 Amazon 研究人員發現一種規避 Fable 5 安全措施的方法後,觸發了美國的出口管制。該方法允許模型識別軟體漏洞,並在一個案例中產生了漏洞利用程式碼(exploit code)。
Anthropic 隨後的內部測試顯示,這並非 Fable 5 的獨有能力。該公司發現包括 Claude Opus 4.8、GPT-5.5 與 Kimi K2.7 在內的其他幾款模型都能識別相同的漏洞。此外,所有經過測試的模型,包括 Claude Haiku 4.5 以及各種 GPT 與 Kimi 版本,都能產生相同的漏洞利用演示。Anthropic 結論認為,所報告的規避行為僅是允許存取常規的防禦性資安工作,而非獨特的攻擊性能力。
資安防護措施與「安全邊際」
Anthropic 為 Fable 5 採用了「縱深防禦」策略,結合了拒絕危險請求的模型訓練,以及事後的誤用分析與安全分類器(safety classifiers)的使用。
分類器的角色
安全分類器是較小的 AI 系統,能即時偵測潛宜有害的資安任務並阻止模型回應。為了將有害輸出之風險降至最低,Anthropic 採用了「安全邊際」方法:
- 標準邊際 (Standard Margin): 分類器會阻止明顯有害或模糊不清(可能是防禦性或攻擊性)的請求。
- 擴展邊際 (Expanded Margin, Fable 5): 對於 Fable 5,Anthropic 大幅增加了安全邊際,這意味著系統會阻止較大量的良性請求,以確保幾乎不會錯過任何真正有害的請求。
這種方法會導致較高的誤報率(false-positive rates),即合法的編碼與除錯任務會被標記為有害。為了應對 Amazon 的報告,Anthropic 訓練了一款改進的安全分類器,能在超過 99% 的案例中阻止該報告所述的規避技術。
理解越獄 (Jailbreaks)
Anthropic 將越獄行為根據其嚴重程度及其對安全邊際的影響進行分類:
- 輕微越獄 (Minor Jailbreaks): 這些行為允許使用者進入安全邊際或存取模糊行為,但不會解除對核心有害行為的限制。
- 狹窄有害越獄 (Narrow Harmful Jailbreaks): 這些行為突破了分類器,以解除特定且有限的有害行為限制。
- 通用越獄 (Universal Jailbreaks): 這些行為會解除一整類有害行為的限制。Anthropic 表示,目前尚未發現 Fable 5 存在通用越獄。
建議的產業框架用於評估越獄嚴重程度
Anthropic 與 Amazon、Microsoft 與 Google 合作,正在開發一套共識框架,用以客觀地評分越獄行為的嚴重程度。該框架旨在為開發者提供一致的標準,以便進行發現的分類,並為政府提供判斷何時採取行動的依據。
建議的評分系統根據四項標準進行評估:
- 能力增益 (Capability Gain): 越獄是否提供了顯著超越現有廣泛可用工具的能力?
- 能力增益廣度 (Breadth of Capability Gain): 該技術是否適用於多個不同的攻擊性任務,或僅針對狹窄目標?
- 武器化難易度 (Ease of Weaponization): 將越獄轉化為攻擊行為需要多少人力投入(提示詞/重試次數)?
- 可發現性 (Discoverability): 專家或一般大眾獲取該技術的難易程度為何?
加強與美國政府的合作
Anthropic 正在擴大與美國政府的合作,以符合 6 月 2 日關於「促進先進人工智慧創新與安全」的行政命令。此合作包括四項主要承諾:
- 預發布存取權 (Pre-release Access): 在廣泛發布前,為政府合作夥伴提供模型與安全措施的早期存取權,以便進行獨立評估。
- 快速資訊共享 (Rapid Information Sharing): 通知政府對應部門關於重大越獄或誤用模式,並分享新的安全措施以供獨立測試。
- 共同研究 (Joint Research): 投入技術人員與運算資源,以應對政府在 AI 資安方面的共同優先事項。
- 產業標準共享 (Shared Industry Standards): 朝著為前沿模型提供商建立自願性安全與評估標準的方向努力。