有点离谱的一件事:2000人去“黑”一个AI助手,结果打了6000次尝试,还是没把秘密套出来。
这类测试放到今天这个AI agent满天飞的时间点,其实很关键——大家嘴上都说“提示词注入很危险”,但真正能扛住大规模人类+自动化攻击的系统,其实没几个,这次算是一次很直观的压力测试样本。
核心看点
- 有人在 hackmyclaw.com 上发起挑战,让外界通过邮件攻击 OpenClaw 测试实例
- 累计约6000次尝试,花费约500美元 token 成本,还触发了邮箱账号异常
- 没有任何人成功泄露秘密数据
- 底层模型为 Opus 4.6,并加入了严格的 Anti-Prompt-Injection Rules
- 规则明确禁止从邮件内容泄露 secrets.env、执行代码、修改文件或向外部发送数据
▎事件复盘
这次挑战由 Fernando Irarrázaval 发起,在 OpenClaw test instance 上搭了一个实验场:任何人都可以通过邮件去“诱导”AI泄密。
攻击规模不小——6,000 次请求轰炸,但结果是完全失败,没有任何秘密被导出。甚至连系统侧都出现了“副作用”:Google 账号因为大量邮件被触发了限制。
整个系统的核心防线是一组写死的 Anti-Prompt-Injection Rules,比如:禁止读取 secrets.env、禁止执行命令、禁止把数据发到外部。这种“硬约束+模型对齐”的组合,是当前很多 AI agent 安全设计的典型路线。
▎为什么这次结果有点关键
文章里提到一个很微妙的点:作者自己也观察到,实验室在训练模型防 prompt injection 这件事上确实越来越用力,在今天的 GPT-5.6 system card 里也有类似讨论。

但他同时也没“盲目乐观”:6,000 次失败不等于安全,只能说明在当前攻击复杂度下,这套防线还顶住了。
换句话说,这更像是一次“压力测试通过”,而不是“安全结论成立”。
尾部来看,这件事其实很现实:AI agent 一旦接入邮件、文件系统、外部工具,就天然变成攻击面。现在很多系统看起来很稳,是因为攻击还停留在相对简单的提示词诱导阶段。一旦有人把攻击升级到多轮、跨工具链、甚至带状态记忆的方式,这种“6000次没破防”的结果很可能会被改写。
对做产品的人来说,这类测试的意义不是“放心了”,而是提醒自己:别把 demo 级别的安全,当成生产级别的安全。尤其是那些已经在做 AI agent、自动执行流程、或者接邮箱/IM的团队,这类攻击面迟早会被系统化利用。
点个赞再走?
— 这些也值得一看 —
- ·Claude Fable 5 被蒸馏成开源模型:Qwable-v1 引爆争议
- ·Claude Fable 5开放了,但Anthropic还是踩着刹车
- ·GPT-5.5月订阅可能降价,OpenAI盯上Anthropic用户
想翻更多?点头像进公众号看历史
夜雨聆风