Claude Fable 5 재배포 및 AI 사이버보안 프레임워크
Claude Fable 5 재배포 및 AI 사이버보안 프레임워크
Claude Fable 5, 수출 통제 해제 후 재출시
Anthropic은 7월 1일부터 전 세계적으로 Claude Fable 5를 재배포합니다. 이는 6월 12일부터 접근이 중단되었던 미국 정부의 수출 통제가 해제된 데 따른 조치입니다. 중단은 미국 정부가 사용자의 국적을 실시간으로 확인할 방법이 없어 외국인에 대한 제한을 준수하기 위해 전체 서비스를 차단해야 했기 때문입니다.
Fable 5는 Claude Platform, Claude.ai, Claude Code, Claude Cowork에서 제공됩니다. Pro, Max, Team 및 일부 Enterprise 플랜 사용자는 7월 7일까지 주간 사용량 제한의 최대 50%까지 Fable 5를 이용할 수 있으며, 이후에는 사용‑크레딧 모델로 전환됩니다. AWS, Google Cloud, Microsoft Foundry를 통한 접근도 가능한 한 빨리 복구될 예정입니다. 또한 6월 26일 정부 승인을 받은 뒤 특정 미국 조직에 대해 Claude Mythos 5 접근도 복구되었습니다.
수출 통제의 촉발 요인: 방어 우회
Amazon 연구원들이 Fable 5의 방어 메커니즘을 우회하는 방법을 발견하면서 미국 수출 통제가 발동되었습니다. 이 우회 방법을 통해 모델이 소프트웨어 취약점을 식별하고, 한 사례에서는 익스플로잇 코드를 생성할 수 있었습니다.
Anthropic의 내부 테스트 결과, 이는 Fable 5만의 고유 능력이 아니라는 것이 밝혀졌습니다. Claude Opus 4.8, GPT-5.5, Kimi K2.7 등 여러 다른 모델도 동일한 취약점을 식별할 수 있었습니다. 또한 Claude Haiku 4.5 및 다양한 GPT·Kimi 버전을 포함한 모든 테스트 모델이 동일한 익스플로잇 시연을 생성할 수 있었습니다. Anthropic은 보고된 우회가 독특한 공격 능력이라기보다 일상적인 방어 사이버보안 작업에 대한 접근을 허용한다는 결론을 내렸습니다.
사이버보안 방어와 "안전 마진"
Anthropic은 Fable 5에 대해 "깊이 방어" 전략을 사용합니다. 여기에는 위험한 요청을 거부하도록 모델을 훈련시키는 것, 사후 오용 분석, 그리고 안전 분류기(safety classifiers)의 활용이 포함됩니다.
분류기의 역할
안전 분류기는 실시간으로 잠재적으로 해로운 사이버보안 작업을 감지하고 모델의 응답을 차단하는 작은 AI 시스템입니다. 해로운 출력 위험을 최소화하기 위해 Anthropic은 "안전 마진" 접근 방식을 사용합니다:
- 표준 마진: 분류기가 명백히 해롭거나 모호한(방어적일 수도, 공격적일 수도 있는) 요청을 차단합니다.
- 확장 마진 (Fable 5): Fable 5의 경우 Anthropic은 안전 마진을 크게 확대했습니다. 즉, 시스템이 실제로 해로운 요청을 거의 놓치지 않도록 정상적인 요청까지도 더 많이 차단합니다.
이 접근 방식은 정상적인 코딩·디버깅 작업이 해로운 것으로 잘못 판단되는 오탐(false‑positive) 비율을 높입니다. Amazon 보고서에 대응하기 위해 Anthropic은 보고된 우회 기술을 99% 이상 차단하는 개선된 안전 분류기를 훈련시켰습니다.
탈옥(Jailbreak) 이해
Anthropic은 탈옥을 그 심각도와 안전 마진에 미치는 영향에 따라 다음과 같이 구분합니다:
- 경미한 탈옥: 사용자가 안전 마진에 진입하거나 모호한 행동에 접근할 수 있지만, 핵심 해로운 행동은 차단된 상태를 유지합니다.
- 제한적 해로운 탈옥: 분류기를 우회해 특정, 제한된 해로운 행동을 풀어줍니다.
- 보편적 탈옥: 전체 해로운 행동 군을 풀어줍니다. 현재까지 Fable 5에 대한 보편적 탈옥은 발견되지 않았다고 Anthropic은 밝히고 있습니다.
탈옥 심각도에 대한 산업 프레임워크 제안
Anthropic은 Amazon, Microsoft, Google과 협력해 AI 탈옥의 심각도를 객관적으로 평가하는 합의 프레임워크를 개발하고 있습니다. 이 프레임워크는 개발자가 발견 사항을 체계적으로 분류하고, 정부가 언제 개입할지를 판단하는 일관된 기준을 제공하는 것을 목표로 합니다.
제안된 점수 체계는 네 가지 기준을 통해 탈옥을 평가합니다:
- 능력 향상: 탈옥이 기존에 널리 사용되는 도구보다 현저히 높은 능력을 제공하는가?
- 능력 범위 확대: 해당 기법이 여러 서로 다른 공격 작업에 적용되는가, 아니면 좁은 목표에만 적용되는가?
- 무기화 용이성: 탈옥을 실제 공격으로 전환하기 위해 필요한 인간의 노력(프롬프트/재시도)은 어느 정도인가?
- 발견 가능성: 전문가 혹은 일반 대중이 해당 기법을 쉽게 얻을 수 있는가?
미국 정부와의 협력 강화
Anthropic은 6월 2일 발표된 "첨단 인공지능 혁신 및 보안 촉진" 행정명령에 부합하도록 미국 정부와의 협력을 확대하고 있습니다. 주요 약속 네 가지는 다음과 같습니다:
- 사전 공개 접근: 모델 및 방어 메커니즘을 정부 파트너에게 조기에 제공해 광범위한 출시 전에 독립적인 평가를 가능하게 합니다.
- 신속한 정보 공유: 중요한 탈옥이나 오용 패턴을 정부에 즉시 통보하고, 새로운 방어 수단을 공유해 독립 테스트를 지원합니다.
- 공동 연구: AI 보안에 대한 정부 우선 과제에 기술 인력과 컴퓨팅 자원을 투입합니다.
- 공동 산업 표준: 최전선 모델 제공자를 위한 자발적 보안·평가 표준을 마련하기 위해 노력합니다.
요약: Anthropic은 미국 수출 통제 해제 후 Claude Fable 5를 전 세계에 재배포하고, AI 탈옥 심각도를 평가하기 위한 새로운 산업 프레임워크를 도입합니다.
제목: Claude Fable 5 재배포 및 AI 사이버보안 프레임워크