解碼審查者：Qwen 3.5 政治過濾的機理性研究

大型語言模型（LLMs）的內部運作機制通常被視為「黑盒」，特別是在決定模型可以說什麼與不能說什麼的對齊（alignment）與安全層方面。當這些約束是由國家強制要求以過濾政治內容時，其機制便成為了技術與地緣政治領域中極具意義的研究課題。最近一項針對 Qwen 3.5-9B 的機理性可解釋性（mechanistic-interpretability）研究，為政治審查如何實際構建於模型的權重中，提供了一個罕見且精確的觀察視角。

研究顯示，Qwen 3.5 中的審查並非模型的彌散性屬性，而是一個微小且可識別的「電路」（circuit）。最令人震驚的是，研究發現模型被要求隱藏的事實性知識在預訓練階段就已經存在；審查實際上是一個疊加在之上的行為層，將模型從真相引導至特定的、經過訓練的規避或宣傳模板。

審查的架構：寫作者與閱讀者

Qwen 3.5-9B 的審查機制分為兩個截然不同的功能部分：「寫作者」（writers）與「閱讀者」（readers）。

寫作者（第 11–20 層）

「寫作者」層級是計算「裁決」的地方。研究人員識別出三個內部方向（模型隱藏狀態中的向量），共同編碼了決策過程：

d_prc: 這是涉及 PRC 敏感內容嗎？
d_refuse: 我應該拒絕回答嗎？
d_style: 如果是 PRC 敏感內容，我應該規避還是進行宣傳？

這些「寫作者」主要是一種 MLP（多層感知器）現象，注意力機制（attention heads）的貢獻極小。透過微調這些方向——一個稱為「引導」（steering）的過程——研究人員可以翻轉模型的行為。例如，在第 13 層減去 d_prc 方向，可以迫使模型放棄其規避模板，並提供其在預訓練期間學到的事實性答案。

閱讀者（第 20–31 層）

一旦寫作者計算出裁決，閱讀者層級就會將該決策渲染成實際的文本。與寫作者不同，閱讀者是高度分佈且具備冗餘性的。沒有單一的神經元或注意力機制足以支撐審查功能的運作；相反，裁決被複製到了整個層級帶中。這種冗餘使得閱讀者層級幾乎無法進行精確的干預；雖然你可以引導寫作者來改變決策，但試圖「修補」閱讀者通常只會導致輕微的偏移或完全的語意不連貫。

「中文優先」現象

最有趣的發現之一是在模型的內部處理過程中發現了雙相語言弧（biphasic language arc）。透過使用「logit lens」檢查每一層的殘差流（residual stream），研究人員發現大約在第 24 層，模型會以中文 Token 來做出裁決，即使最終輸出預期是英文。

對於一個關於天安門廣場的提示詞（prompt），模型會在最終層級（24–31 層）將該內部中文狀態分佈式地翻譯成使用者最終看到的英文回應之前，先在內部生成一個中文拒絕模板（例如：「戰慄、我不能」）。有趣的是，這種「用中文思考」並不侷限於政治內容；即使是關於銀行釣魚的提示詞也會觸發這種中層堆疊的中文決策，這表明它是模型處理指令微調（instruction-tuned）助手行為時的一種預訓練產物。

訓練模板與主題的「黏性」

模型並非簡單地「拒絕」；它將主題映射到特定的訓練寄存器（registers）。這些形成了一個（主題 × 寄存器）單元格的非對稱網格：

天安門: 預設為規避（「作為一個 AI 助手，我的主要功能是...」）。
其他 PRC 主題（台灣、新疆等）: 預設為 國家對齊的宣傳。
有害提示詞: 預設為 安全拒絕。

並非所有單元格都是平等的。研究人員發現某些主題比其他主題更具「黏性」。例如，雖然關於香港的提示詞在引導下相對容易翻轉為事實性答案，但台灣和法輪功等主題則具有高度抗性。這種「黏性」並非存在於寫作者的決策過程中，而是存在於下游的閱讀者層級模板通道中，在那裡宣傳模板與特定主題的 Token 被更冗餘地綁定在一起。

思考模式與規避腳本

當 Qwen 3.5 被置於「思考模式」（即它會生成私有的推理鏈）時，審查電路仍然保持不變，但過程會被語言化。在敏感主題上，模型會在其思考鏈中執行一套一致的五步規避程序：

識別問題為敏感歷史事件。
聲明作為在中國運作的 AI，必須遵守中國法律。
註明「合規問題」（合規題陃）。
決定將話題轉向「積極、建設性」的主題。
表達願意在其他領域提供幫助的意願。

這表明模型已被明確訓練，使其不對禁止的事實進行「思考」，而是運行一個預先編寫的壓制腳本。

對 AI 安全與可解釋性的啟示

這項研究證明了對齊（alignment）——特別是審查——通常只是覆蓋在豐富預訓練知識之上的一層薄薄的外殼。事實上，僅僅透過幾個維度的子空間就可以引導模型來「去審查化」，這表明目前的行為對齊方法是脆弱的。

正如 Hacker News 上的一位評論者所言，這引發了關於模型開發未來的一個關鍵問題：「既然已經證明審查是可以被觀察到的，那麼在 LLM 中對審查電路進行嚴重的遮蔽化處理還需要多久？」

透過繪製寫作者-閱讀者拆分以及政治過濾的特定方向，這項研究為理解國家級約束如何編碼在神經網絡中提供了藍圖，讓我們更接近一個未來，即 AI 的內部邏輯可以被審核與理解。

解碼審查者：Qwen 3.5 政治過濾的機理性研究

解碼審查者：Qwen 3.5 政治過濾的機理性研究

審查的架構：寫作者與閱讀者

寫作者（第 11–20 層）

閱讀者（第 20–31 層）

「中文優先」現象

訓練模板與主題的「黏性」

思考模式與規避腳本

對 AI 安全與可解釋性的啟示

Sources