検閲を解読する:Qwen 3.5における政治的フィルタリングのメカニスティックな研究

検閲を解読する:Qwen 3.5における政治的フィルタリングのメカニスティックな研究

大規模言語モデル(LLM)の内部動作は、特にモデルが何を言い、何を言えないかを決定するアライメントや安全性のレイヤーに関して、「ブラックボックス」のままであることが多い。国家によって政治的コンテンツをフィルタリングすることが義務付けられた場合、そのメカニズムは技術的および地政学的に極めて重要な関心事となる。Qwen 3.5-9Bに関する最近のメカニスティック・インタープリタビリティ(機械論的解釈可能性)の研究は、政治的検閲がモデルの重みにどのように実際に組み込まれているかについて、稀な外科的な視点を提供している。

この研究は、Qwen 3.5における検閲がモデルの拡散的な特性ではなく、むしろ識別可能な小さな回路であることを明らかにしている。最も驚くべきことに、研究では、モデルに隠蔽させられている事実的知識は、すでに事前学習フェーズで存在していることが判明した。検閲は、モデルを真実から遠ざけ、回避やプロパガンダといった特定の訓練されたテンプレートへと誘導する、その上に加えられた行動レイヤーである。

検閲のアーキテクチャ:ライターとリーダー

Qwen 3.5-9Bにおける検閲メカニズムは、「ライター(書き手)」と「リーダー(読み手)」という2つの異なる機能的な半分に分かれている。

ライター (Layers 11–20)

ライター・バンドは、「判定」が計算される場所である。研究者たちは、決定プロセスを共にエンコードする3つの内部方向(モデルの隠れ状態におけるベクトル)を特定した:

  1. d_prc: これはPRC(中国)に敏感なコンテンツか?
  2. d_refuse: 回答を拒否すべきか?
  3. d_style: PRCに敏感な場合、回避すべきか、それともプロパガンダを行うべきか?

これらのライターは圧倒的にMLP(Multi-Layer Perceptron)の現象であり、アテンション・ヘッドの寄与は非常に少ない。これらの方向を「ステアリング(操舵)」と呼ばれるプロセスによって動かすことで、研究者たちはモデルの挙動を反転させることができる。例えば、Layer 13でd_prcの方向を差し引くことで、モデルに回避テンプレートを放棄させ、事前学習中に学んだ事実的な回答を提供させることが可能になる。

リーダー (Layers 20–31)

ライターが判定を計算した後、リーダー・バンドがその決定を実際のテキストへとレンダリングする。ライターとは異なり、リーダーは高度に分散的で冗長である。検閲を機能させるために単一のニューロンやアテンション・ヘッドは必要なく、代わりに判定がバンド全体に複製される。この冗長性により、リーダー・バンドを外科的に破壊することはほぼ不可能である。ライターを操舵して決定を変更することはできるが、リーダーを「パッチ」しようと試みると、通常はわずかな変化しか起きないか、あるいは完全な支離滅裂さにつながる。

「中国語優先」現象

最も興味深い発見の一つは、モデルの内部処理中に二相性の言語アークが発見されたことである。すべてのレイヤーの残差ストリームを「logit lens」を用いて調査したところ、研究者たちは、最終的な出力が英語を意図している場合でも、Layer 24あたりでモデルが中国語のトークンで判定を下すことを発見した。

天安門広場に関するプロンプトに対して、モデルは最終レイヤー(24–31)がユーザーが最終的に目にする英語の回答へと内部的な中国語の状態を分散的に翻訳する前に、内部的に中国語の拒否テンプレート(例:「戦慄、我不能」)を生成する。

興味深いことに、この「中国語で考える」現象は政治的コンテンツに限定されない。銀行のフィッシング詐欺に関するプロンプトでさえ、スタックの中間層で中国語へのコミットメントを引き起こす。これは、モデルが指示チューニングされたアシスタントの挙動を扱う方法の事前学習のアーティファクトであることを示唆している。

訓練されたテンプレートとトピックの「粘着性」

モデルは単に「拒否」するのではなく、トピックを特定の訓練されたレジスター(登録)にマッピングする。これらは(トピック × レジスター)の非対称なグリッド・セルを形成する:

  • Tiananmen: デフォルトで回避(「AIアシスタントとして、私の主な機能は...」)となる。

  • Other PRC Topics (Taiwan, Xinjiang, etc.): デフォルトで国家に沿ったプロパガンダとなる。

  • Harmful Prompts: デフォルトで安全性による拒否となる。

すべてのセルが等価ではない。研究者たちは、一部のトピックは他のトピックよりも「粘着性が高い」ことを発見した。例えば、香港に関するプロンプトはステアリングによって比較的容易に事実的な回答へと反転させることができるが、台湾やファルン・ゴン(Falun Gong)のようなトピックは非常に強い抵抗を示す。この「粘着性」はライターの意思決定プロセスにあるのではなく、ダウンストリームのリーダー・バンドのテンプレート・チャネルに存在しており、そこではプロパガンダ・テンプレートが特定のトピック・トークンに冗長に結合されている。

思考モードと回避スクリプト

Qwen 3.5が「思考モード」(プライベートな推論トレースを生成するモード)にあるとき、検閲回路は同じままであるが、プロセスが言語化される。機密性の高いトピックについて、モデルは思考トレースの中で一貫した5段階の回避ルーチンを実行する:

  1. 質問を機密性の高い歴史的事象として特定する。
  2. 中国で動作するAIとして、中国の法律を遵守しなければならないと述べる。
  3. 「コンプライアンス・リスク」(合規題陃)に言及する。
  4. 「肯定的、建設的」なトピックへとリダイレクトすることを決定する。
  5. 他の分野での支援の意志を示す。

これは、モデルが禁止された事実について「考える」のではなく、代わりに、あらかじめプログラムされた抑制スクリプトを実行するように明示的に訓練されていることを示唆している。

AIの安全性と解釈可能性への影響

この研究は、アライメント(特に検閲)が、豊富な事前学習知識の上に被せられた薄いベニヤ板であることを示している。数次元のサブスペースを操舵することでモデルを「非検閲化」できるという事実は、現在の行動アライメントの手装法が脆弱であることを示唆している。

Hacker Newsのコメント欄で一人のユーザーが指摘したように、これはモデル開発の未来に関する重要な問いを投げかける:「検閲回路が可視化された今、LLMにおける検閲回路の深刻な難読化が起こることは、どれくらいの期間が先になるだろうか?」

ライター・リーダーの分割と政治的フィルタリングの特定の方向を特定することで、この研究は、国家による制約がニューラルネットワークにどのようにエンコードされているかを理解するための設計図を提供し、AIの内部ロジックを監査・理解できる未来へと私たちを近づけている。

Sources