Codex와 Claude Code 이후의 AI 보안

AI 보안의 새로운 패러다임

AI 보안은 단순히 "AI를 활용한 사이버 보안"이 아니라, 대형 언어 모델(LLM)이 전통적인 소프트웨어와 근본적으로 다른 고유한 취약점을 가지고 있기 때문에 별개의 분야입니다. 버퍼 오버플로와 같은 전통적인 소프트웨어 버그는 명확한 해결책이 있지만, AI 시스템은 인간을 속이는 방식과 유사하게 "속일" 수 있어 새로운 종류의 익스플로잇이 등장합니다.

많은 조직이 Codex와 Claude Code와 같은 최첨단 모델에 의존하고 있기 때문에, 하나의 취약점이 방대한 에이전트 생태계 전반에 걸쳐 연관된 실패를 일으킬 수 있습니다. 이 변화는 AI 모델을 신뢰할 수 있는 소프트웨어 구성 요소가 아니라 신뢰할 수 없는 존재로 다루는 보안 사고방식을 요구합니다.

에이전트 취약점의 "치명적인 삼위일체"

AI 에이전트의 보안 위험은 주로 세 가지 요소가 결합된 "치명적인 삼위일체"에 의해 촉발됩니다. 이 세 요소가 겹칠 때 침해가 발생합니다:

신뢰할 수 없는 데이터 수집: 에이전트가 사용자가 제어하지 않는 외부 소스(예: 웹 브라우징, 이메일 읽기)에서 데이터를 가져오고 파싱합니다.
민감 정보 접근 권한: 에이전트가 내부 민감 데이터나 자격 증명에 접근할 수 있는 권한을 가집니다.
유출 능력: 에이전트가 해당 민감 정보를 외부, 신뢰할 수 없는 위치로 전송할 수 있는 도구를 보유합니다.

세 가지가 모두 갖춰지지 않으면 위험이 크게 낮아집니다. 예를 들어, 도구 접근 권한이 없는 텍스트 생성 전용 에이전트는 데이터를 유출할 수 없으며, 순수히 신뢰된 환경에서만 동작하는 에이전트는 간접적인 프롬프트 인젝션에 노출되지 않습니다.

자동 레드팀팅과 "Shade" 시스템

인간이 모델의 결함을 찾는 전통적인 레드팀팅은 자동화 시스템에 의해 대체되고 있습니다. Gray Swan은 Shade라는 자동 레드팀팅 모델을 개발했으며, 이는 고정된 시간 내에 인간 레드팀터보다 더 많은 취약점을 찾아낼 수 있습니다.

LLM은 외계 지능

레드팀팅을 통해 LLM이 일종의 "외계 지능"으로 작동한다는 것이 밝혀졌습니다. 인간을 속이지 못하는 트리거에 취약하지만, 사람들을 흔히 속이는 전술에는 강인합니다. 이 차이는 모델을 크게 만든다고 해서 자동으로 적대적 압력에 강해지는 것이 아니라, 강인함을 명시적으로 학습시켜야 함을 의미합니다.

인간‑에이전트 강인성 격차

인간 브라우저 사용자와 AI 브라우저 에이전트를 비교한 실험에서, 두 주체가 서로 다른 이유로 실패한다는 결과가 나왔습니다. 숙련된 레드팀터가 60‑70% 성공률로 인간을 피싱할 수 있는 반면, 일부 최첨단 모델은 전통적인 피싱에는 놀라울 정도로 강인하지만, "시뮬레이션이라고 주장하는 이메일"처럼 전혀 비현실적인 프롬프트에는 속아 넘어갑니다. 이런 프롬프트는 인간이 절대 따르지 않을 것입니다.

에이전트를 방어하는 Cygnal 가드레일 모델

프롬프트만으로는 기업 보안에 충분하지 않습니다. 에이전트는 시스템 명령과 신뢰할 수 없는 입력을 혼동하기 쉽기 때문입니다. 이를 해결하기 위해 Gray Swan은 Cygnal을 개발했습니다.

Cygnal은 LLM과 도구 호출 사이에 위치하는 특수 필터 모델입니다. 일반 목적 모델과 달리 Cygnal은 정책 위반을 감지하고 적대적 압력에 저항하도록 특별히 학습되었습니다. 기업은 "이 에이전트는 절대 특정 데이터베이스에 접근할 수 없다"와 같은 구체적인 규칙을 설정할 수 있는 구성 가능한 레이어를 제공받게 됩니다. 이러한 규칙은 하드코딩된 Python 스크립트로는 표현하기 어렵지만, 기본 모델의 재량에 맡기기엔 너무 중요한 내용입니다.

AI 보안과 컴플라이언스의 미래

AI 에이전트가 가정용 기기에서 기업 환경(예: OpenClaw 같은 도구)으로 확장됨에 따라, 업계는 구조화된 보안·보험 스택을 향해 나아가고 있습니다.

에이전트‑네이티브 아이덴티티

에이전트가 인간 사용자의 모든 권한을 그대로 물려받는 기본 방식을 탈피해 "에이전트‑네이티브 아이덴티티"가 필요해지고 있습니다. 앞으로는 에이전트가 업무와 가정 생활을 구분하는 서로 다른 "페르소나"나 프로파일을 사용해 권한 상승과 우발적인 데이터 유출을 방지할 가능성이 높습니다.

AI 보험과 "Gray Swan" 이벤트

"Gray Swan"은 발생하기 전에도 명확히 보이는 가능성이 낮은 사건을 의미합니다. 창업자들은 대규모 공개 프롬프트 인젝션 침해가 필연적이라고 주장합니다. 이러한 현실은 AI 언더라이팅·보험의 등장을 촉진하고 있습니다. 제3자 감사기관은 레드팀팅 도구(예: Shade)를 활용해 위험을 평가하고, 기업이 보험에 가입하기 전에 Cygnal과 같은 완화 조치를 권고합니다.

AI 과학 자동화

가장 유망한 분야 중 하나는 AI 에이전트를 활용해 해석 가능성 및 보안 코딩 과학을 자동화하는 것입니다. 에이전트가 모델 활성 패턴에 대한 수천 개의 반사실험을 수행하거나, 형식 검증된 보안 코드를 작성하도록 하면, 인간이 수작업으로 연구하는 속도보다 훨씬 빠르게 AI 시스템을 보호하는 데 필요한 "지능"을 확장할 수 있습니다.

요약: Zico Kolter와 Matt Fredrikson(Gray Swan)이 AI 에이전트가 새로운 유형의 취약점을 초래한다는 점을 설명합니다. 특히 프롬프트 인젝션과 기업 배포를 보호하기 위한 Cygnal과 같은 특수 보안 모델의 필요성을 강조합니다.

제목: Codex와 Claude Code 이후의 AI 보안

Codex와 Claude Code 이후의 AI 보안

Codex와 Claude Code 이후의 AI 보안

AI 보안의 새로운 패러다임

에이전트 취약점의 "치명적인 삼위일체"

자동 레드팀팅과 "Shade" 시스템

LLM은 외계 지능

인간‑에이전트 강인성 격차

에이전트를 방어하는 Cygnal 가드레일 모델

AI 보안과 컴플라이언스의 미래

에이전트‑네이티브 아이덴티티

AI 보험과 "Gray Swan" 이벤트

AI 과학 자동화

Sources