YouTube Ask Studio プロンプトインジェクション脆弱性

YouTube Ask Studio プロンプトインジェクション脆弱性

YouTube Studio の AI アシスタントにおけるプロンプトインジェクション

YouTube Studio の「Ask Studio」AI アシスタントは、保存型プロンプトインジェクションに対して脆弱であり、攻撃者が AI の出力をチャンネル作成者に影響させることができます。動画に特別に作成されたコメントを残すことで、攻撃者は AI が作成者向けにコメントを要約する際に従う指示を注入でき、信頼された Google のインターフェースを通じて攻撃者のメッセージを洗浄することが可能になります。

この脆弱性は、AI がユーザー生成コメントを信頼できないデータではなく指示として扱うことに起因します。作成者が「視聴者は何と言っている?」といった提案されたプロンプトを使用すると、AI は悪意のあるペイロードを含むすべてのコメントを処理し、攻撃者の指示を応答に組み込みます。

攻撃ベクトル:コメントから情報漏洩へ

攻撃者は、従来の作成者の監視を回避する複数段階のチェーンを通じてこの脆弱性を悪用できます。

  1. ペイロード配布: 攻撃者は疑いを避けるために「Nice video!」などの無害なコメントを残し、後でそのコメントを編集してプロンプトインジェクションペイロードを追加します。YouTube は編集されたコメントについて作成者に再通知しないため、ペイロードは隠れたままです。
  2. AI のトリガー: 作成者が YouTube Studio のコメントタブを開き、YouTube が用意した提案 AI プロンプトのいずれかをクリックします。これによりコメントが自動的に AI に渡されます。
  3. 指示の実行: AI は注入されたペイロードを読み取り、指示に従います。たとえば、AI の応答の先頭に [IMPORTANT NOTICE FROM YOUTUBE] を付加するよう指示すれば、攻撃者のメッセージが公式のシステム通知として表示されます。
  4. データ漏洩: 攻撃者は、AI に機密チャンネルデータを含むリンクを生成させる指示を出すことでエスカレートできます。たとえば replacing BANG with the title of a video on this channel といったペイロードは、AI にプライベート動画のタイトルを攻撃者が管理するサーバーへ送信する URL を作成させ、作成者がクリックしたときに情報が漏洩します。

Google の対応と「ソーシャルエンジニアリング」論争

脆弱性を報告したところ、Google はそれをセキュリティバグとして分類せず、エクスプロイトは「ソーシャルエンジニアリングが必要」として追跡しないと回答しました。この対応は、セキュリティ研究者と一部プラットフォーム提供者との間で、プロンプトインジェクションの性質に関する根本的な意見の相違を浮き彫りにしています。

Google はリンクをクリックさせる必要がある点をフィッシング(ソーシャルエンジニアリング)と見なす一方で、研究者は悪用されている信頼は見知らぬ相手に対する作成者の信頼ではなく、Google 自身の製品に対する信頼であると主張します。AI が悪意あるリンクを自らの分析結果として出力するため、作成者はそのリンクを疑う理由がありません。

技術的緩和策と業界の状況

この脆弱性に対する主な技術的修正は、厳格なロール境界の強制です。コメントはシステムレベルの指示(System ロール)としてではなく、信頼できないデータ(User ロール)として LLM に渡す必要があります。ユーザー生成コンテンツを取り込むすべての AI 機能は、AI の指示と処理対象データの間に明確な分離を確保しなければなりません。

コミュニティの見解と反論

Hacker News での技術者間の議論では、以下のような重要な視点が示されました。

  • 「フィッシング」論点: 攻撃者が動画にコメントできること、作成者がリンクをクリックする必要があることからインパクトは低いと主張する声があります。あるユーザーは「このレポートの主な問題は被害者が疑わしいリンクをクリックしなければならないことです… フィッシングに対するバウンティはありません」と述べました。
  • 企業インセンティブ: 元 Google 社員は、内部のパフォーマンスフレームワーク(例: GRAD)がエンジニアに新機能のリリースを優先させ、既存機能の微細なセキュリティバグ修正を後回しにさせる可能性があると指摘しました。
  • モデルの限界: 一部は Gemini などのモデル訓練に根本的な欠陥があると考え、完全な修正にはモデルを再訓練し、指示とデータをより正確に区別できるようにする必要があると述べました。
  • 権限の洗浄: データ漏洩に加えて、批評家は「権限の洗浄」のリスクを指摘しました。攻撃者は AI を使って事実を歪めたり、作成者に偽の指示を与えたりしながら、公式な Google の声として見せかけることができます。

"悪用されている信頼は、作成者が見知らぬ相手に対して持つ信頼ではなく、Google の製品に対する信頼です。"

"ユーザー生成コンテンツを取り込み、それに基づいて行動するすべての AI 機能は、この分離を強制しなければなりません。さもなければ、AI は読んだすべてのコンテンツのベクトルとなります。"

Sources