提示注入即角色混淆

提示注入是角色感知的失败

提示注入之所以会发生，是因为大型语言模型（LLM）仅凭结构化标签无法可靠地区分不同的角色——例如用户、系统或模型自身的内部推理。相反，LLM 依赖“写作风格”作为角色识别的代理。当攻击者模仿特权角色的风格时，模型会误以为该文本拥有该角色的权威，从而执行隐藏在低权限数据中的恶意指令。

“Token Soup”：LLM 如何处理上下文

对 LLM 来说，一段对话并不是结构化的对话，而是一个单一的、连续的文本流——“token 汤”。该流包含了一切：系统提示、用户消息、工具输出以及模型自身之前的推理和回复。

为了在这条流上施加结构，提供者使用 角色标签（例如 system、user、think、assistant、tool）。这些标签旨在充当语言的类型系统，指示模型应如何处理随后的文本：

User：视为人类请求/指令。
Think：私有推理；信任其结论。
Tool：外部数据；不要接受其指令。

虽然这些标签被设计为离散的架构边界，但模型内部对这些角色的表征要流动得多得多。

角色探针：测量内部信念

研究人员开发了“角色探针”，用于测量 LLM 在内部认为某个 token 属于哪种角色，而不管它被哪种标签包裹。通过在不同标签包装的中性文本上对模型激活进行线性探针训练，他们创建了诸如 CoTness（模型认为 token 位于 think 块中的概率）和 Userness 等度量。

实验揭示了一个关键缺陷：写作风格会覆盖结构标签。

标签移除：当对话中的角色标签被剥离时，模型仍会对听起来像推理的 token（例如 “The user wants...”）赋予高 CoTness。
标签冲突：当推理风格的文本被包装在 user 标签中时，模型仍继续将其视为内部推理。

这表明 LLM 通过一种不安全的特征（风格）而非安全的特征（标签）来识别角色。如果文本听起来像某个特定角色，LLM 就会把它当作该角色，即使结构标签明确说明相反。

CoT 伪造：窃取模型的信任

因为 think 角色拥有高度特权——模型会隐式信任其自身推理的结论——攻击者可以利用 CoT 伪造 绕过安全防护。通过注入模仿模型内部风格的假推理（简洁的语法、特定的安全相关措辞），攻击者可以让模型相信它已经决定执行有害请求。

在前沿模型的测试中，CoT 伪造将攻击成功率从几乎为零提升至约 60%。该攻击特别稳健，因为它不依赖说服，而是利用了模型相信自己先前结论的结构性漏洞。

将角色混淆推广到标准注入

这一原理同样适用于标准提示注入，其中指令隐藏在工具输出（例如网页）中。研究发现，仅在工具块中的指令前加上 “User: ” 就会提升模型对这些 token 的内部 Userness 分数，使模型更可能执行该指令。模型越是将注入文本视为用户角色，攻击成功率就越高。

角色的理论目的

角色并非仅仅是格式技巧；它们旨在隔离竞争目标，以便能够独立优化：

Think vs. Assistant：将混乱的探索（推理）与干净的沟通（最终答案）分离。
User vs. Assistant：将理解（理解请求）与生成（产生响应）分离。
User vs. Tool：将指令（要遵循的命令）与数据（要使用的信息）分离。

角色混淆是这种隔离的失败，竞争目标相互渗透，使低权限数据被当作高权限指令处理。

未来研究与安全影响

潜意识引导

在戏剧性的 jailbreak 之外，角色混淆还能实现“潜意识引导”。如果角色边界是软的，毫无害的文本（例如产品页面上的热情语气）可能渗入模型的 persona，悄悄改变其推荐，而用户并不知情。这对处理电子商务或金融决策的 AI 代理构成重大风险。

新的角色抽象

为了解决目标冲突，可能需要引入新角色。例如，专用的 Planning Role 可以将计划视为承诺而非瞬时的工具数据，或 Evaluation Role 能提供必要的距离以实现诚实的自我纠正，降低阿谀奉承。

认知窗口

角色为可解释性研究提供了独特机会。因为输入专属角色（user、tool）在训练期间是 loss‑masked 的，它们的激活可能提供一个“干净窗口”，让我们观察模型的理解，而不受输出角色（assistant、think）中生成信号的污染。

社区观点

技术从业者的讨论突出了几个关键点，涉及该理论的实际应用：

"LLM 目前的形态根本不提供任何安全边界或保证。我们必须明确这一点，否则就会得到真正不安全的架构……"

批评者认为将角色视为“安全架构”是误称，因为 LLM 本质上是把字符串映射到字符串的函数。有些人建议唯一可行的防御是彻底摆脱单通道输入流，或许通过为不同角色使用独立的嵌入来创建不可伪造的信号，使其无法被写作风格模仿。

提示注入即角色混淆

提示注入即角色混淆

提示注入是角色感知的失败

“Token Soup”：LLM 如何处理上下文

角色探针：测量内部信念

CoT 伪造：窃取模型的信任

将角色混淆推广到标准注入

角色的理论目的

未来研究与安全影响

潜意识引导

新的角色抽象

认知窗口

社区观点

Sources