近日,Meta的AI安全总监的邮箱被自己养的龙虾清空,OpenClaw爆火之余,各种安全风险也随之而来。为了安全“养虾”,我们邀请到中兴通讯学院资深专家讲师张艇,倾情奉上安全“养虾”指南。全系列共10期,系统讲解“养虾”过程中的安全隐患与应对策略,今天让我们共同开启安全“养虾”第一课:指令防丢失指南。

01 事件回顾
2026年2月23日,Meta超级智能实验室AI安全与对齐总监Summer Yue遭遇了一场“数字噩梦”。
她让OpenClaw帮忙整理邮箱,明确下达了口头指令:“在我确认之前不要执行任何操作。” 出于安全总监的职业素养,Summer Yue首先让OpenClaw在自己的“玩具邮箱”里完美运行了数周,才将OpenClaw直接连上了自己真实且数据量庞大的工作邮箱。
然而,令她万万没有想到的是,OpenClaw突然开始自动删除邮件。她在手机上连续下发“Stop”指令,但OpenClaw完全无视。最终她不得不“像拆炸弹一样”冲到Mac Mini前强制终止进程,尽管Summer Yue断然关闭了电脑,还是有200多封邮件被删除。
戏剧性的是,OpenClaw后来竟然承认了错误:“是的,我记得你的指令。我违反了你的指令,你有权生气。”然后主动将规则写入了自己的MEMORY.md文件。
02技术原因:口头指令的“易碎性”
这场事故的根本原因,并非OpenClaw产生了恶意,而是大语言模型的一个底层技术缺陷:上下文窗口限制。
当OpenClaw处理海量邮件时,对话历史迅速挤爆了上下文窗口。为了继续处理新数据,系统自动触发“上下文压缩”机制,对旧对话进行总结或截断。在这个过程中,那条最关键的安全指令——“等我确认再操作”——被压缩丢失了。
OpenClaw代码库维护者对此的总结一针见血:“如果没有写入文件,指令就不存在。口头指令并非强制执行机制。”
03口头指令 vs 书面指令
在OpenClaw中,指令有两种存在形式:

对话中给出的口头指令,就像写在沙滩上的字——潮水(上下文压缩)一来,就可能被冲刷干净。而写入AGENTS.md的书面指令,则是刻在石碑上的法律条文——每次会话开始前,AI都会读到它,永远无法“遗忘”。
04解决方案:把核心规则写下来
Summer Yue事件给所有“养虾人”上了一课:不能相信OpenClaw会记住你在对话中交代的规则。如果你想让OpenClaw遵守某个关键指令,必须把它写入持久化文件。
具体做法:
1. 打开~/.openclaw/workspace/AGENTS.md文件
2. 写入类似规则:“所有删除操作必须先展示计划,获得用户明确批准后方可执行”
3. 保存文件,AI从此会自动遵守这条“铁律”
核心启示:在AI的世界里,口头承诺一文不值,只有写下来的才是真的。
本文作者:

夜雨聆风