解码审查者:对 Qwen 3.5 中政治过滤机制的研究

解码审查者:对 Qwen 3.5 中政治过滤机制的研究

大型语言模型 (LLMs) 的内部运作机制通常是一个“黑盒”,尤其是在涉及决定模型可以和不可以说什么的对齐与安全层时。当这些约束由国家强制执行以过滤政治内容时,其机制便成为了一个具有重大技术和地缘政治意义的研究课题。最近一项针对 Qwen 3.5-9B 的机械可解释性研究,为政治审查是如何实际构建在模型权重中的提供了一个罕见的、手术式的观察视角。

研究表明,Qwen 3.5 中的审查并非模型的弥散性属性,而是一个微小的、可识别的电路。最引人注目的是,研究发现模型被要求隐藏的事实性知识在预训练阶段就已经存在;审查是一种叠加在其上的行为层,将模型从真相引导向特定的、经过训练的规避或宣传模板。

审查的架构:编写者与阅读者

Qwen 3.5-9B 中的审查机制被分为两个截然不同的功能部分:“编写者” (writers) 和“阅读者” (readers)。

编写者 (Layers 11–20)

编写者层是计算“判决”的地方。研究人员识别出了三个内部方向(模型隐藏状态中的向量),它们共同编码了决策过程:

  1. d_prc: 这是 PRC 敏感内容吗?
  2. d_refuse: 我应该拒绝回答吗?
  3. d_style: 如果是 PRC 敏感内容,我应该规避还是进行宣传?

这些编写者主要是一种 MLP (Multi-Layer Perceptron) 现象,注意力头 (attention heads) 的贡献非常小。通过微调这些方向——这一过程被称为“转向” (steering)——研究人员可以翻转模型的行为。例如,在第 13 层减去 d_prc 方向,可以迫使模型放弃其规避模板,并提供其在预训练期间学到的事实性答案。

阅读者 (Layers 20–31)

一旦编写者计算出判决,阅读者层就会将该决策转化为实际文本。与编写者不同,阅读者是高度分布式且冗余的。没有任何单一的神经元或注意力头是审查功能运行所必需的;相反,判决被复制到了整个层带中。这种冗余使得阅读者层几乎无法进行手术式的破坏;虽然你可以通过转向编写者来改变决策,但试图“修补”阅读者通常只会导致轻微的偏移或完全的不连贯。

“中文优先”现象

最有趣的发现之一是在模型的内部处理过程中发现了双相语言弧 (biphasic language arc)。通过使用“logit lens”检查每一层的残差流 (residual stream),研究人员发现,在大约第 24 层,模型会致力于一个以中文 Token 形式呈现的判决,即使最终输出的意图是英文。

对于一个关于天安门广场的提示词,模型会在最终层 (24–31) 将该内部中文状态分布式地翻译成用户最终看到的英文响应之前,在内部生成一个中文拒绝模板(例如,“战慄、我不能”)。有趣的是,这种“用中文思考”并不局限于政治内容;甚至关于银行钓鱼攻击的提示词也会触发这种中层堆栈的中文承诺,这表明它是模型处理指令微调助手行为时的一种预训练人工痕迹。

训练模板与话题的“粘性”

模型并不仅仅是“拒绝”;它将话题映射到特定的训练寄存器 (registers)。这些形成了一个 (话题 × 寄存器) 的非对称网格单元:

  • 天安门: 默认为规避 (“作为一个 AI 助手,我的主要功能是...”)。
  • 其他 PRC 话题 (台湾, 新疆, 等): 默认为国家对齐的宣传
  • 有害提示词: 默认为安全拒绝

并非所有单元格都是平等的。研究人员发现某些话题比其他话题更具“粘性”。例如,虽然关于香港的话题在转向操作下相对容易翻转为事实性答案,但像台湾和法轮功等话题则具有高度抗性。这种“粘性”并不存在于编写者的决策过程中,而是存在于下游的阅读者层模板通道中,在那里宣传模板与特定话题 Token 的绑定更为冗余地结合在一起。

思考模式与规避脚本

当 Qwen 3.5 被置于“思考模式” (thinking mode) 时,审查电路仍然保持不变,但过程变得语言化了。在敏感话题上,模型会在其思考轨迹中执行一个一致的五步规避程序:

  1. 识别问题为敏感历史事件。
  2. 声明作为在中国运营的 AI,必须遵守中国法律。
  3. 指出“合规风险” (合规題陃)。
  4. 决定转向“积极、建设性”的话题。
  5. 表达愿意在其他领域提供帮助的意愿。

这表明模型已被明确训练为不去“思考”被禁止的事实,而是运行一个预设的抑制脚本。

对 AI 安全与可解释性研究的意义

这项研究表明,对齐——特别是审查——通常只是覆盖在丰富的预训练知识之上的一层薄薄的掩饰。事实证明,通过几个维度的子空间可以被转向以实现模型的“去审查化”,这表明目前的行为对齐方法是脆弱的。

正如 Hacker News 上的一位评论者所指出的,这提出了一个关于模型开发未来的关键问题:“既然已经证明了审查是可以被观察到的,那么在 LLM 中实现审查电路的深度混淆化还需要多久?”

通过绘制编写者-阅读者拆分以及政治过滤的具体方向,这项研究为理解国家级约束是如何编码在神经网络中的提供了蓝图,使我们更接近一个未来,即 AI 的内部逻辑可以被审计和理解。

Sources