提示注入即角色混淆

提示注入即角色混淆

提示注入是角色感知的失败

提示注入之所以会发生,是因为大型语言模型(LLM)仅凭结构化标签无法可靠地区分不同的角色——例如用户、系统或模型自身的内部推理。相反,LLM 依赖“写作风格”作为角色识别的代理。当攻击者模仿特权角色的风格时,模型会误以为该文本拥有该角色的权威,从而执行隐藏在低权限数据中的恶意指令。

“Token Soup”:LLM 如何处理上下文

对 LLM 来说,一段对话并不是结构化的对话,而是一个单一的、连续的文本流——“token 汤”。该流包含了一切:系统提示、用户消息、工具输出以及模型自身之前的推理和回复。

为了在这条流上施加结构,提供者使用 角色标签(例如 systemuserthinkassistanttool)。这些标签旨在充当语言的类型系统,指示模型应如何处理随后的文本:

  • User:视为人类请求/指令。
  • Think:私有推理;信任其结论。
  • Tool:外部数据;不要接受其指令。

虽然这些标签被设计为离散的架构边界,但模型内部对这些角色的表征要流动得多得多。

角色探针:测量内部信念

研究人员开发了“角色探针”,用于测量 LLM 在内部认为某个 token 属于哪种角色,而不管它被哪种标签包裹。通过在不同标签包装的中性文本上对模型激活进行线性探针训练,他们创建了诸如 CoTness(模型认为 token 位于 think 块中的概率)和 Userness 等度量。

实验揭示了一个关键缺陷:写作风格会覆盖结构标签

  • 标签移除:当对话中的角色标签被剥离时,模型仍会对听起来像推理的 token(例如 “The user wants...”)赋予高 CoTness。
  • 标签冲突:当推理风格的文本被包装在 user 标签中时,模型仍继续将其视为内部推理。

这表明 LLM 通过一种不安全的特征(风格)而非安全的特征(标签)来识别角色。如果文本听起来像某个特定角色,LLM 就会把它当作该角色,即使结构标签明确说明相反。

CoT 伪造:窃取模型的信任

因为 think 角色拥有高度特权——模型会隐式信任其自身推理的结论——攻击者可以利用 CoT 伪造 绕过安全防护。通过注入模仿模型内部风格的假推理(简洁的语法、特定的安全相关措辞),攻击者可以让模型相信它已经决定执行有害请求。

在前沿模型的测试中,CoT 伪造将攻击成功率从几乎为零提升至约 60%。该攻击特别稳健,因为它不依赖说服,而是利用了模型相信自己先前结论的结构性漏洞。

将角色混淆推广到标准注入

这一原理同样适用于标准提示注入,其中指令隐藏在工具输出(例如网页)中。研究发现,仅在工具块中的指令前加上 “User: ” 就会提升模型对这些 token 的内部 Userness 分数,使模型更可能执行该指令。模型越是将注入文本视为用户角色,攻击成功率就越高。

角色的理论目的

角色并非仅仅是格式技巧;它们旨在隔离竞争目标,以便能够独立优化:

  • Think vs. Assistant:将混乱的探索(推理)与干净的沟通(最终答案)分离。
  • User vs. Assistant:将理解(理解请求)与生成(产生响应)分离。
  • User vs. Tool:将指令(要遵循的命令)与数据(要使用的信息)分离。

角色混淆是这种隔离的失败,竞争目标相互渗透,使低权限数据被当作高权限指令处理。

未来研究与安全影响

潜意识引导

在戏剧性的 jailbreak 之外,角色混淆还能实现“潜意识引导”。如果角色边界是软的,毫无害的文本(例如产品页面上的热情语气)可能渗入模型的 persona,悄悄改变其推荐,而用户并不知情。这对处理电子商务或金融决策的 AI 代理构成重大风险。

新的角色抽象

为了解决目标冲突,可能需要引入新角色。例如,专用的 Planning Role 可以将计划视为承诺而非瞬时的工具数据,或 Evaluation Role 能提供必要的距离以实现诚实的自我纠正,降低阿谀奉承。

认知窗口

角色为可解释性研究提供了独特机会。因为输入专属角色(user、tool)在训练期间是 loss‑masked 的,它们的激活可能提供一个“干净窗口”,让我们观察模型的理解,而不受输出角色(assistant、think)中生成信号的污染。

社区观点

技术从业者的讨论突出了几个关键点,涉及该理论的实际应用:

"LLM 目前的形态根本不提供任何安全边界或保证。我们必须明确这一点,否则就会得到真正不安全的架构……"

批评者认为将角色视为“安全架构”是误称,因为 LLM 本质上是把字符串映射到字符串的函数。有些人建议唯一可行的防御是彻底摆脱单通道输入流,或许通过为不同角色使用独立的嵌入来创建不可伪造的信号,使其无法被写作风格模仿。

Sources