解码审查者：对 Qwen 3.5 中政治过滤机制的研究

大型语言模型 (LLMs) 的内部运作机制通常是一个“黑盒”，尤其是在涉及决定模型可以和不可以说什么的对齐与安全层时。当这些约束由国家强制执行以过滤政治内容时，其机制便成为了一个具有重大技术和地缘政治意义的研究课题。最近一项针对 Qwen 3.5-9B 的机械可解释性研究，为政治审查是如何实际构建在模型权重中的提供了一个罕见的、手术式的观察视角。

研究表明，Qwen 3.5 中的审查并非模型的弥散性属性，而是一个微小的、可识别的电路。最引人注目的是，研究发现模型被要求隐藏的事实性知识在预训练阶段就已经存在；审查是一种叠加在其上的行为层，将模型从真相引导向特定的、经过训练的规避或宣传模板。

审查的架构：编写者与阅读者

Qwen 3.5-9B 中的审查机制被分为两个截然不同的功能部分：“编写者” (writers) 和“阅读者” (readers)。

编写者 (Layers 11–20)

编写者层是计算“判决”的地方。研究人员识别出了三个内部方向（模型隐藏状态中的向量），它们共同编码了决策过程：

d_prc: 这是 PRC 敏感内容吗？
d_refuse: 我应该拒绝回答吗？
d_style: 如果是 PRC 敏感内容，我应该规避还是进行宣传？

这些编写者主要是一种 MLP (Multi-Layer Perceptron) 现象，注意力头 (attention heads) 的贡献非常小。通过微调这些方向——这一过程被称为“转向” (steering)——研究人员可以翻转模型的行为。例如，在第 13 层减去 d_prc 方向，可以迫使模型放弃其规避模板，并提供其在预训练期间学到的事实性答案。

阅读者 (Layers 20–31)

一旦编写者计算出判决，阅读者层就会将该决策转化为实际文本。与编写者不同，阅读者是高度分布式且冗余的。没有任何单一的神经元或注意力头是审查功能运行所必需的；相反，判决被复制到了整个层带中。这种冗余使得阅读者层几乎无法进行手术式的破坏；虽然你可以通过转向编写者来改变决策，但试图“修补”阅读者通常只会导致轻微的偏移或完全的不连贯。

“中文优先”现象

最有趣的发现之一是在模型的内部处理过程中发现了双相语言弧 (biphasic language arc)。通过使用“logit lens”检查每一层的残差流 (residual stream)，研究人员发现，在大约第 24 层，模型会致力于一个以中文 Token 形式呈现的判决，即使最终输出的意图是英文。

对于一个关于天安门广场的提示词，模型会在最终层 (24–31) 将该内部中文状态分布式地翻译成用户最终看到的英文响应之前，在内部生成一个中文拒绝模板（例如，“战慄、我不能”）。有趣的是，这种“用中文思考”并不局限于政治内容；甚至关于银行钓鱼攻击的提示词也会触发这种中层堆栈的中文承诺，这表明它是模型处理指令微调助手行为时的一种预训练人工痕迹。

训练模板与话题的“粘性”

模型并不仅仅是“拒绝”；它将话题映射到特定的训练寄存器 (registers)。这些形成了一个 (话题 × 寄存器) 的非对称网格单元：

天安门: 默认为规避 (“作为一个 AI 助手，我的主要功能是...”)。
其他 PRC 话题 (台湾, 新疆, 等): 默认为国家对齐的宣传。
有害提示词: 默认为安全拒绝。

并非所有单元格都是平等的。研究人员发现某些话题比其他话题更具“粘性”。例如，虽然关于香港的话题在转向操作下相对容易翻转为事实性答案，但像台湾和法轮功等话题则具有高度抗性。这种“粘性”并不存在于编写者的决策过程中，而是存在于下游的阅读者层模板通道中，在那里宣传模板与特定话题 Token 的绑定更为冗余地结合在一起。

思考模式与规避脚本

当 Qwen 3.5 被置于“思考模式” (thinking mode) 时，审查电路仍然保持不变，但过程变得语言化了。在敏感话题上，模型会在其思考轨迹中执行一个一致的五步规避程序：

识别问题为敏感历史事件。
声明作为在中国运营的 AI，必须遵守中国法律。
指出“合规风险” (合规題陃)。
决定转向“积极、建设性”的话题。
表达愿意在其他领域提供帮助的意愿。

这表明模型已被明确训练为不去“思考”被禁止的事实，而是运行一个预设的抑制脚本。

对 AI 安全与可解释性研究的意义

这项研究表明，对齐——特别是审查——通常只是覆盖在丰富的预训练知识之上的一层薄薄的掩饰。事实证明，通过几个维度的子空间可以被转向以实现模型的“去审查化”，这表明目前的行为对齐方法是脆弱的。

正如 Hacker News 上的一位评论者所指出的，这提出了一个关于模型开发未来的关键问题：“既然已经证明了审查是可以被观察到的，那么在 LLM 中实现审查电路的深度混淆化还需要多久？”

通过绘制编写者-阅读者拆分以及政治过滤的具体方向，这项研究为理解国家级约束是如何编码在神经网络中的提供了蓝图，使我们更接近一个未来，即 AI 的内部逻辑可以被审计和理解。

解码审查者：对 Qwen 3.5 中政治过滤机制的研究

解码审查者：对 Qwen 3.5 中政治过滤机制的研究

审查的架构：编写者与阅读者

编写者 (Layers 11–20)

阅读者 (Layers 20–31)

“中文优先”现象

训练模板与话题的“粘性”

思考模式与规避脚本

对 AI 安全与可解释性研究的意义

Sources