CodexおよびClaude Code後のAIセキュリティ

AIセキュリティの新しいパラダイム

AIセキュリティは、単なる「AIを用いたサイバーセキュリティ」ではなく、独自の規律です。なぜなら、大規模言語モデル（LLM）は、従来のソフトウェアとは根本的に異なる固有の脆弱性を備えているからです。バッファオーバーフローのような従来のソフトウェアのバグには明確な修正策がありますが、AIシステムは人間を欺くような方法で「騙される」ことがあり、新しいクラスの攻撃手法を生み出しています。

多くの組織が少数のフロンティアモデル（CodexやClaude Codeを動かしているものなど）に依存しているため、単一の脆弱性がエージェントの広大なエコシステム全体に相関的な失敗をもたらす可能性があります。この変化により、AIモデルを信頼できるソフトウェアコンポーネントとしてではなく、信頼できないエンティティとして扱うセキュリティの考え方が求められています。

エージェントの脆弱性における「致命的な三要素（Lethal Trifecta）」

AIエージェントにおけるセキュリティリスクは、主に「致命的な三要素（lethal trifecta）」と呼ばれる3つの要因の組み合わせによって引き起こされます。侵害は通常、これら3つの要素が重なったときに発生します。

信頼できないデータの取り込み: エージェントが、ユーザーが制御していないソース（例：ウェブの閲覧やメールの読み取り）から外部データを取得し、解析すること。
プライベート情報へのアクセス: エージェントが機密性の高い内部データや認証情報にアクセスする権限を持っていること。
情報の持ち出し（Exfiltration）能力: エージェントがそのプライベート情報を外部の信頼できない場所に送信するツールを持っていること。

これら3つが揃わない限り、リスクは大幅に低下します。例えば、ツールへのアクセス権を持たずテキストのみを生成するエージェントはデータを持ち出すことができず、完全に信頼された環境で動作するエージェントは間接的なプロンプトインジェクションの対象にはなりません。

自動化されたレッドチーミングと「Shade」システム

モデルの破壊を見つけるために人間を使う従来のレッドチーミングは、自動化されたシステムに取って代わられつつあります。Gray Swanは、Shadeと呼ばれるシステムを開発しました。これは、限られた時間内で脆弱性を見つける能力において、人間のレッドティマーを凌駕することができる自動化されたレッドチーミングモデルです。

異質な知能としてのLLM

レッドチーミングにより、LLMは一種の「異質な知能（alien intelligence）」として機能することが明らかになりました。LLMは、人間を騙すことはできないが、人間を騙すような戦術には耐性がある一方で、人間なら決して引っかからないようなトリガーに対して脆弱です。この乖離は、モデルのスケールアップ（大型化）が、敵対的な圧力に対する堅牢性を自動的に高めるわけではないことを意味します。堅牢性は、明示的にトレーニングされる必要があります。

人間とエージェントの堅牢性のギャップ

人間のブラウザユーザーとAIブラウザエージェントを比較する実験では、人間とエージェントが失敗する理由が異なることが示されました。熟練したレッドティマーが人間に対して60-70%の成功率で「フィッシング」を行える一方で、一部のフロンティアモデルは従来のフィッシングに対して驚くほど堅牢ですが、誰もが絶対に実行しないような不条理なプロンプト（例：シミュレーションであると主張し、すべてのメールをランダムなアドレスに転送するよう要求するメール）には屈してしまいます。

エージェントの防御：Cygnalガードレールモデル

プロンプトだけではエンタープライズセキュリティには不十分です。エージェントがシステム指示と信頼できない入力を混同することがよくあるためです。そのため、Gray SwanはCygnalを開発しました。

Cygnalは、LLMとそのツール呼び出しの間に位置する特化型のフィルタリングモデルです。汎用モデルとは異なり、Cygnalはポリシー違反を検出し、敵対的な圧力に抵抗するように特別にトレーニングされています。これにより、企業は、ハードコードされたPythonスクリプトでは定義が難しく、しかしベースモデルの判断に任せるには重要すぎる特定のルール（例：「このエージェントは特定のデータベースには決して触れてはならない」）を構成可能なレイヤーとして適用できます。

AIセキュリティとコンプライアンスの未来

AIエージェントが家庭用デバイスからエンタープライズ環境（例：OpenClawなどのツールを通じて）へと移行するにつれ、業界は構造化されたセキュリティと保険のスタックへと向かっています。

エージェントネイティブなアイデンティティ

エージェントが単に人間のユーザーのすべての権限を継承するというデフォルトの状態から脱却し、「エージェントネイティブなアイデンティティ」へのニーズが高まっています。将来的に、エージェントは仕事とプライベートの生活を分けるために異なる「ペルソナ」やプロファイルを使用し、権限昇格や偶発的なデータ漏洩を防ぐことが求められるでしょう。

AI保険と「Gray Swan」イベント

「Gray Swan」という用語は、起こる前に明確に予見できる、起こりそうにない出来事を指します。創設者たちは、大規模で公的なプロンプトインジェクションによる侵害が避けられないと主張しています。この現実は、AIの引き受け（underwriting）と保険の台頭を促しており、そこでは第三者監査人がShadeのようなレッドチーミングツールを使用してリスクを評価し、企業が保険に加入する前にCygnalのような緩和策を導入することを推奨しています。

AIの科学を自動化する

最も有望ななフロンティアの一つは、AIエージェントを使用して、解釈可能性の科学とセキュアコーディングを自動化することです。モデルの活性化パターンに対して数千もの反事実実験を実行したり、、あるいは形式的に検証されたセキュアコードを記述したりするためにエージェントを使用することで、業界は、人間が手動で調査するよりも速く、AIシステムを保護するために必要な「知能」をスケールさせることができます。

CodexおよびClaude Code後のAIセキュリティ

CodexおよびClaude Code後のAIセキュリティ

AIセキュリティの新しいパラダイム

エージェントの脆弱性における「致命的な三要素（Lethal Trifecta）」

自動化されたレッドチーミングと「Shade」システム

異質な知能としてのLLM

人間とエージェントの堅牢性のギャップ

エージェントの防御：Cygnalガードレールモデル

AIセキュリティとコンプライアンスの未来

エージェントネイティブなアイデンティティ

AI保険と「Gray Swan」イベント

AIの科学を自動化する

Sources