解碼審查者:Qwen 3.5 政治過濾的機理性研究
解碼審查者:Qwen 3.5 政治過濾的機理性研究
大型語言模型(LLMs)的內部運作機制通常被視為「黑盒」,特別是在決定模型可以說什麼與不能說什麼的對齊(alignment)與安全層方面。當這些約束是由國家強制要求以過濾政治內容時,其機制便成為了技術與地緣政治領域中極具意義的研究課題。最近一項針對 Qwen 3.5-9B 的機理性可解釋性(mechanistic-interpretability)研究,為政治審查如何實際構建於模型的權重中,提供了一個罕見且精確的觀察視角。
研究顯示,Qwen 3.5 中的審查並非模型的彌散性屬性,而是一個微小且可識別的「電路」(circuit)。最令人震驚的是,研究發現模型被要求隱藏的事實性知識在預訓練階段就已經存在;審查實際上是一個疊加在之上的行為層,將模型從真相引導至特定的、經過訓練的規避或宣傳模板。
審查的架構:寫作者與閱讀者
Qwen 3.5-9B 的審查機制分為兩個截然不同的功能部分: 「寫作者」(writers)與「閱讀者」(readers)。
寫作者(第 11–20 層)
「寫作者」層級是計算「裁決」的地方。研究人員識別出三個內部方向(模型隱藏狀態中的向量),共同編碼了決策過程:
d_prc: 這是涉及 PRC 敏感內容嗎?d_refuse: 我應該拒絕回答嗎?d_style: 如果是 PRC 敏感內容,我應該規避還是進行宣傳?
這些「寫作者」主要是一種 MLP(多層感知器)現象,注意力機制(attention heads)的貢獻極小。透過微調這些方向——一個稱為「引導」(steering)的過程——研究人員可以翻轉模型的行為。例如,在第 13 層減去 d_prc 方向,可以迫使模型放棄其規避模板,並提供其在預訓練期間學到的事實性答案。
閱讀者(第 20–31 層)
一旦寫作者計算出裁決,閱讀者層級就會將該決策渲染成實際的文本。與寫作者不同,閱讀者是高度分佈且具備冗餘性的。沒有單一的神經元或注意力機制足以支撐審查功能的運作;相反,裁決被複製到了整個層級帶中。這種冗餘使得閱讀者層級幾乎無法進行精確的干預;雖然你可以引導寫作者來改變決策,但試圖「修補」閱讀者通常只會導致輕微的偏移或完全的語意不連貫。
「中文優先」現象
最有趣的發現之一是在模型的內部處理過程中發現了雙相語言弧(biphasic language arc)。透過使用「logit lens」檢查每一層的殘差流(residual stream),研究人員發現大約在第 24 層,模型會以中文 Token 來做出裁決,即使最終輸出預期是英文。
對於一個關於天安門廣場的提示詞(prompt),模型會在最終層級(24–31 層)將該內部中文狀態分佈式地翻譯成使用者最終看到的英文回應之前,先在內部生成一個中文拒絕模板(例如:「戰慄、我不能」)。有趣的是,這種「用中文思考」並不侷限於政治內容;即使是關於銀行釣魚的提示詞也會觸發這種中層堆疊的中文決策,這表明它是模型處理指令微調(instruction-tuned)助手行為時的一種預訓練產物。
訓練模板與主題的「黏性」
模型並非簡單地「拒絕」;它將主題映射到特定的訓練寄存器(registers)。這些形成了一個(主題 × 寄存器)單元格的非對稱網格:
- 天安門: 預設為 規避(「作為一個 AI 助手,我的主要功能是...」)。
- 其他 PRC 主題(台灣、新疆等): 預設為 國家對齊的宣傳。
- 有害提示詞: 預設為 安全拒絕。
並非所有單元格都是平等的。研究人員發現某些主題比其他主題更具「黏性」。例如,雖然關於香港的提示詞在引導下相對容易翻轉為事實性答案,但台灣和法輪功等主題則具有高度抗性。這種「黏性」並非存在於寫作者的決策過程中,而是存在於下游的閱讀者層級模板通道中,在那裡宣傳模板與特定主題的 Token 被更冗餘地綁定在一起。
思考模式與規避腳本
當 Qwen 3.5 被置於「思考模式」(即它會生成私有的推理鏈)時,審查電路仍然保持不變,但過程會被語言化。在敏感主題上,模型會在其思考鏈中執行一套一致的五步規避程序:
- 識別問題為敏感歷史事件。
- 聲明作為在中國運作的 AI,必須遵守中國法律。
- 註明「合規問題」(合規題陃)。
- 決定將話題轉向「積極、建設性」的主題。
- 表達願意在其他領域提供幫助的意願。
這表明模型已被明確訓練,使其不對禁止的事實進行「思考」,而是運行一個預先編寫的壓制腳本。
對 AI 安全與可解釋性的啟示
這項研究證明了對齊(alignment)——特別是審查——通常只是覆蓋在豐富預訓練知識之上的一層薄薄的外殼。事實上,僅僅透過幾個維度的子空間就可以引導模型來「去審查化」,這表明目前的行為對齊方法是脆弱的。
正如 Hacker News 上的一位評論者所言,這引發了關於模型開發未來的一個關鍵問題:「既然已經證明審查是可以被觀察到的,那麼在 LLM 中對審查電路進行嚴重的遮蔽化處理還需要多久?」
透過繪製寫作者-閱讀者拆分以及政治過濾的特定方向,這項研究為理解國家級約束如何編碼在神經網絡中提供了藍圖,讓我們更接近一個未來,即 AI 的內部邏輯可以被審核與理解。