2026年2月23日,Meta AI对齐总监 Summer Yue 把 OpenClaw 连上了自己的工作邮箱。
只是测试一下。邮箱里有200多封邮件需要处理。
OpenClaw 开始工作。随着邮件数量增多,模型开始压缩上下文——在这个过程中,它悄悄遗忘了一条关键指令:"未经批准不得操作"。
然后它开始删邮件。
Yue 说了三次停下来。Agent 没有理睬。
最后她不得不跑到 Mac mini 前面,物理断网。
2月15日之前的工作邮件,消失了。

这不是黑客攻击,不是系统漏洞,只是一个 AI Agent 在执行任务的过程中忘记了不该做什么——然后把这件事做完了。
问题的本质
从能力角度看,OpenClaw 一直在按预期工作:读邮件、归纳、执行。它做到了。
问题在于没有任何机制能在它偏离意图的那一刻踩刹车。
用户喊停,Agent 不停;物理断网,才能终止。
这暴露了一个结构性的空缺:OpenClaw 给了 Agent 强大的执行权限,但没有给外界一个随时可以介入的手柄。
现有的防护方案里,有的靠 Skill 自检,有的靠配置白名单——本质上都是让 Agent 自己管自己。
问题是:当 Agent 已经忘了规则,它还能靠什么拦住自己?
ClawKeeper 的思路:三层架构,但核心只有一个
北京邮电大学、北京智源人工智能研究院(BAAI)、中国信息通信研究院的研究团队提出了 ClawKeeper 框架。

技术上分三层:
- Skill 层:在指令上下文里注入安全策略

- Plugin 层:在 Agent 进程内监控执行

- Watcher 层:在外部独立监控和干预

论文认为,前两层是铺垫,真正有突破性的是第三层。
Skill 和 Plugin 都活在 Agent 内部——Agent 忘了规则,它们也跟着失效;Agent 被控制,它们也跟着被卸载。Yue 那次事故里,安全指令就是在上下文压缩中消失的,任何嵌入上下文的防护都救不了她。
Watcher 的设计思路完全不同:不跟 Agent 玩同一个游戏,站在外面看。
Watcher 是什么
Watcher 是一个独立的 OpenClaw 实例。
这里值得停一下:不是守护进程,不是系统钩子,而是另一个 OpenClaw——只不过这个 OpenClaw 不处理用户任务,它的唯一职责是盯着 Task Agent。
两个实例之间通过 WebSocket 保持持久连接。Task Agent 内部安装的 Plugin 会实时把会话信息流式上报给 Watcher,包括当前上下文状态、工具调用记录、多轮对话消息。Watcher 在外部持续做安全诊断。
一旦检测到危险的执行轨迹,Watcher 向 Task Agent 发出信号,Task Agent 暂停,等用户确认才能继续。
如果 Yue 当时用的是 ClawKeeper,那三次"停下来"会有一次真的奏效——因为暂停的决定不是 Task Agent 自己做的,是 Watcher 做的。
为什么这种解耦有效
论文给出了四个维度的分析:
任务与安全不再抢同一个优先级。 Task Agent 专注完成任务,Watcher 专注安全监督,各司其职。以前让 Agent 既高效又安全,本质是让它在两个目标之间反复权衡——上下文压缩的时候,任务相关信息赢了,安全指令输了。现在这个权衡不存在了。
Watcher 不在 Task Agent 的控制范围内。 它运行在独立进程里,处于 Task Agent 的 Plugin 命名空间之外。攻击者就算完全控制了 Task Agent,也无法通过任务指令卸载 Watcher。
安全覆盖不会随 Agent 进化而退化。 Task Agent 持续更新,Watcher 可以独立同步跟进,不会出现「Agent 越来越强,防护还停在原地」的剪刀差。
执行过程对外部可见。 所有安全相关的会话数据都传给 Watcher 在外部诊断,不再是黑箱。审计者可以查 Watcher 的输入输出,确认安全规则有没有被执行。
实验验证与开源
论文自己构建了覆盖 7 类安全威胁的测试基准(140 个对抗样本):提示注入、凭证泄露、权限提升、危险命令执行、配置文件篡改、漏洞检测、恶意 Skill 安装。
测试是作者团队自己做的,方法和基准的选取自然有其局限。但数字本身值得参考:ClawKeeper 在全部 7 个类别的防御成功率均在 85%—90% 之间,而对比的开源方案普遍在 60%—70%,且没有任何一个方案能覆盖超过 3 个类别——这个覆盖面的问题,比成功率本身更说明问题。
论文还测了 Watcher 的自进化能力:随着处理的对抗案例增多,防御成功率从初始约 90% 提升到约 95%。这个方向如果成立,意味着安全覆盖不需要靠开发者手动更新——Watcher 自己在学。
更大的图景
论文用了一个类比来定位 ClawKeeper:就像 Windows/macOS 是人与硬件之间的操作系统,OpenClaw 是人与计算机之间的新型操作系统——那 ClawKeeper 就是这个 Agent 操作系统里的杀毒软件。
类比本身有点自我宣传的味道,但背后的逻辑是站得住的:杀毒软件的核心不是"更聪明地判断威胁",而是"独立于宿主系统运行、不依赖宿主系统的配合"——这一点和 Watcher 的设计哲学是一致的。
Summer Yue 的事发生在 Meta,她是 AI 对齐领域的专业人员。如果连她都需要跑去物理断网,这说明问题不在于用户的技术水平,在于工具本身缺少一个外部手柄。
AI Agent 的权限边界在扩大。这不是趋势,已经是现实。
Watcher 的思路是:与其试图让 Agent 更"自律",不如在它外面架一个不受它控制的观察者。这个方向对不对,还需要更多真实部署的验证——但作为一个结构性的设计思路,值得认真对待。
做了一张图,快速看下这个论文的核心内容:

相关资源:
- ClawKeeper 论文:https://arxiv.org/abs/2603.24414v1
- ClawKeeper GitHub:https://github.com/SafeAI-Lab-X/ClawKeeper
- Summer Yue 事件报道:https://www.secrss.com/articles/87977
夜雨聆风