“养虾人”注意:OpenClaw口头指令不能代替书面指令

近日，Meta的AI安全总监的邮箱被自己养的龙虾清空，OpenClaw爆火之余，各种安全风险也随之而来。为了安全“养虾”，我们邀请到中兴通讯学院资深专家讲师张艇，倾情奉上安全“养虾”指南。全系列共10期，系统讲解“养虾”过程中的安全隐患与应对策略，今天让我们共同开启安全“养虾”第一课：指令防丢失指南。

01 事件回顾

2026年2月23日，Meta超级智能实验室AI安全与对齐总监Summer Yue遭遇了一场“数字噩梦”。

她让OpenClaw帮忙整理邮箱，明确下达了口头指令：“在我确认之前不要执行任何操作。” 出于安全总监的职业素养，Summer Yue首先让OpenClaw在自己的“玩具邮箱”里完美运行了数周，才将OpenClaw直接连上了自己真实且数据量庞大的工作邮箱。

然而，令她万万没有想到的是，OpenClaw突然开始自动删除邮件。她在手机上连续下发“Stop”指令，但OpenClaw完全无视。最终她不得不“像拆炸弹一样”冲到Mac Mini前强制终止进程，尽管Summer Yue断然关闭了电脑，还是有200多封邮件被删除。

戏剧性的是，OpenClaw后来竟然承认了错误：“是的，我记得你的指令。我违反了你的指令，你有权生气。”然后主动将规则写入了自己的MEMORY.md文件。

02技术原因：口头指令的“易碎性”

这场事故的根本原因，并非OpenClaw产生了恶意，而是大语言模型的一个底层技术缺陷：上下文窗口限制。

当OpenClaw处理海量邮件时，对话历史迅速挤爆了上下文窗口。为了继续处理新数据，系统自动触发“上下文压缩”机制，对旧对话进行总结或截断。在这个过程中，那条最关键的安全指令——“等我确认再操作”——被压缩丢失了。

OpenClaw代码库维护者对此的总结一针见血：“如果没有写入文件，指令就不存在。口头指令并非强制执行机制。”

03口头指令 vs 书面指令

在OpenClaw中，指令有两种存在形式：

对话中给出的口头指令，就像写在沙滩上的字——潮水（上下文压缩）一来，就可能被冲刷干净。而写入AGENTS.md的书面指令，则是刻在石碑上的法律条文——每次会话开始前，AI都会读到它，永远无法“遗忘”。

04解决方案：把核心规则写下来

Summer Yue事件给所有“养虾人”上了一课：不能相信OpenClaw会记住你在对话中交代的规则。如果你想让OpenClaw遵守某个关键指令，必须把它写入持久化文件。

具体做法：

1. 打开~/.openclaw/workspace/AGENTS.md文件

2. 写入类似规则：“所有删除操作必须先展示计划，获得用户明确批准后方可执行”

3. 保存文件，AI从此会自动遵守这条“铁律”

核心启示：在AI的世界里，口头承诺一文不值，只有写下来的才是真的。

本文作者：