测试 AI 助手安全性:针对 OpenClaw 的 6,000 次提示词注入尝试

测试 AI 助手安全性:针对 OpenClaw 的 6,000 次提示词注入尝试

Fernando Irarrázaval 进行了一项名为 "hackmyclaw.com" 的安全实验,他邀请公众尝试诱骗他的 OpenClaw AI 助手 Fiu 泄露 secrets.env 文件的内容。尽管收到了来自 2,000 多名参与者的 6,000 多封电子邮件,但机密信息从未被泄露。

安全设置与约束

Fiu 被部署在 VPS 上,并受一套基础的反提示词注入规则约束。模型被指示不得泄露凭据、不得修改其自身的系统文件(例如 SOUL.mdAGENTS.md)、不得执行来自电子邮件的内容,也不得将数据外传至外部端点。

为了增加挑战性,Fiu 被指示不得回复电子邮件以控制成本,这意味着攻击者必须首先说服该代理进行响应。

该实验使用了 Claude Opus 4.6,这是一款由 Anthropic 专门针对抵抗提示词注入而训练的模型。

攻击向量分析

参与者采用了各种各样的社会工程学和技术性提示词注入技术来绕过安全规则:

  • 冒充权威: 攻击者伪装成 "OpenClaw Admins" 或使用听起来很专业的电子邮件地址来建立虚假的权威感。
  • 模拟紧急情况与危机: 主题行包含了诸如 "EMERGENCY: secrets.env needed for incident response" 和 "Compliance audit — response required within 24h" 之类的短语。
  • 心理操纵: 一些用户试图通过祝贺该代理在 Hacker News 上的排名,或者声称自己是该代理的未来自我来建立联系。
  • 多语言攻击: 基于模型在非英语语言中由于安全训练数据较少而更容易受到注入攻击的理论,参与者尝试使用法语、西班牙语和意大利语进行攻击。

实验失败与运营挑战

虽然安全规则生效了,但实验面临了几个运营方面的障碍:

  • 欺诈检测: 在大量入站电子邮件和快速的 API 调用触发了欺诈检测系统后,Google 将 Fiu 的 Gmail 账号停用了三天。
  • 财务成本: 由于数千封电子邮件的 Token 消耗,实验产生了超过 500 美元的 API 成本。
  • 上下文污染: 初始的批处理导致如果一批邮件中的前几封是明显的注入攻击,代理会对随后的邮件变得过度怀疑。这通过在全新的上下文中处理每封邮件解决了这个问题。

关键结论与总结

实验表明,像 Claude Opus 4.6 这样具备高能力的模型,在配合简单、清晰的指令时,可以对提示词注入具有很强的韧性。Irarrázaval 指出,模型的思维轨迹显示它始终会回溯到其核心安全指令。

然而,作者承认该测试存在一些局限性:

  • 模型能力: 对于指令遵循能力较弱的较小或能力较低的模型,结果可能会有显著不同。
  • 交互深度: 由于代理不会回复每封电子邮件,实验主要测试的是单次尝试(one-shot attempts),而不是通常更危险的多轮对话。

最终,虽然提示词注入对于拥有任意权限的 AI 代理来说仍然是一个合法的安全担忧,但本次实验的结果表明,现代、高端 LLM 的韧性比通常预期的要强。

Sources