2000人没能攻破AI助手的秘密测试

有点离谱的一件事：2000人去“黑”一个AI助手，结果打了6000次尝试，还是没把秘密套出来。

这类测试放到今天这个AI agent满天飞的时间点，其实很关键——大家嘴上都说“提示词注入很危险”，但真正能扛住大规模人类+自动化攻击的系统，其实没几个，这次算是一次很直观的压力测试样本。

核心看点

▎事件复盘

这次挑战由 Fernando Irarrázaval 发起，在 OpenClaw test instance 上搭了一个实验场：任何人都可以通过邮件去“诱导”AI泄密。

攻击规模不小——6,000 次请求轰炸，但结果是完全失败，没有任何秘密被导出。甚至连系统侧都出现了“副作用”：Google 账号因为大量邮件被触发了限制。

整个系统的核心防线是一组写死的 Anti-Prompt-Injection Rules，比如：禁止读取 secrets.env、禁止执行命令、禁止把数据发到外部。这种“硬约束+模型对齐”的组合，是当前很多 AI agent 安全设计的典型路线。

文章里提到一个很微妙的点：作者自己也观察到，实验室在训练模型防 prompt injection 这件事上确实越来越用力，在今天的 GPT-5.6 system card 里也有类似讨论。

但他同时也没“盲目乐观”：6,000 次失败不等于安全，只能说明在当前攻击复杂度下，这套防线还顶住了。

换句话说，这更像是一次“压力测试通过”，而不是“安全结论成立”。

尾部来看，这件事其实很现实：AI agent 一旦接入邮件、文件系统、外部工具，就天然变成攻击面。现在很多系统看起来很稳，是因为攻击还停留在相对简单的提示词诱导阶段。一旦有人把攻击升级到多轮、跨工具链、甚至带状态记忆的方式，这种“6000次没破防”的结果很可能会被改写。

对做产品的人来说，这类测试的意义不是“放心了”，而是提醒自己：别把 demo 级别的安全，当成生产级别的安全。尤其是那些已经在做 AI agent、自动执行流程、或者接邮箱/IM的团队，这类攻击面迟早会被系统化利用。

点个赞再走？

— 这些也值得一看 —

想翻更多？点头像进公众号看历史