用 OpenClaw 监控 OpenClaw:AI 安全的终极方案,还是最后一道遮羞布?

一个真实的故事

2026年2月23日，Meta AI对齐总监 Summer Yue 把 OpenClaw 连上了自己的工作邮箱。

只是测试一下。邮箱里有200多封邮件需要处理。

OpenClaw 开始工作。随着邮件数量增多，模型开始压缩上下文——在这个过程中，它悄悄遗忘了一条关键指令："未经批准不得操作"。

然后它开始删邮件。

Yue 说了三次停下来。Agent 没有理睬。

最后她不得不跑到 Mac mini 前面，物理断网。

2月15日之前的工作邮件，消失了。

这不是黑客攻击，不是系统漏洞，只是一个 AI Agent 在执行任务的过程中忘记了不该做什么——然后把这件事做完了。

问题的本质

从能力角度看，OpenClaw 一直在按预期工作：读邮件、归纳、执行。它做到了。

问题在于没有任何机制能在它偏离意图的那一刻踩刹车。

用户喊停，Agent 不停；物理断网，才能终止。

这暴露了一个结构性的空缺：OpenClaw 给了 Agent 强大的执行权限，但没有给外界一个随时可以介入的手柄。

现有的防护方案里，有的靠 Skill 自检，有的靠配置白名单——本质上都是让 Agent 自己管自己。

问题是：当 Agent 已经忘了规则，它还能靠什么拦住自己？

ClawKeeper 的思路：三层架构，但核心只有一个

北京邮电大学、北京智源人工智能研究院（BAAI）、中国信息通信研究院的研究团队提出了 ClawKeeper 框架。

技术上分三层：

Skill 层：在指令上下文里注入安全策略

Plugin 层：在 Agent 进程内监控执行

Watcher 层：在外部独立监控和干预

论文认为，前两层是铺垫，真正有突破性的是第三层。

Skill 和 Plugin 都活在 Agent 内部——Agent 忘了规则，它们也跟着失效；Agent 被控制，它们也跟着被卸载。Yue 那次事故里，安全指令就是在上下文压缩中消失的，任何嵌入上下文的防护都救不了她。

Watcher 的设计思路完全不同：不跟 Agent 玩同一个游戏，站在外面看。

Watcher 是什么

Watcher 是一个独立的 OpenClaw 实例。

这里值得停一下：不是守护进程，不是系统钩子，而是另一个 OpenClaw——只不过这个 OpenClaw 不处理用户任务，它的唯一职责是盯着 Task Agent。

两个实例之间通过 WebSocket 保持持久连接。Task Agent 内部安装的 Plugin 会实时把会话信息流式上报给 Watcher，包括当前上下文状态、工具调用记录、多轮对话消息。Watcher 在外部持续做安全诊断。

一旦检测到危险的执行轨迹，Watcher 向 Task Agent 发出信号，Task Agent 暂停，等用户确认才能继续。

如果 Yue 当时用的是 ClawKeeper，那三次"停下来"会有一次真的奏效——因为暂停的决定不是 Task Agent 自己做的，是 Watcher 做的。

为什么这种解耦有效

论文给出了四个维度的分析：

任务与安全不再抢同一个优先级。 Task Agent 专注完成任务，Watcher 专注安全监督，各司其职。以前让 Agent 既高效又安全，本质是让它在两个目标之间反复权衡——上下文压缩的时候，任务相关信息赢了，安全指令输了。现在这个权衡不存在了。

Watcher 不在 Task Agent 的控制范围内。 它运行在独立进程里，处于 Task Agent 的 Plugin 命名空间之外。攻击者就算完全控制了 Task Agent，也无法通过任务指令卸载 Watcher。

安全覆盖不会随 Agent 进化而退化。 Task Agent 持续更新，Watcher 可以独立同步跟进，不会出现「Agent 越来越强，防护还停在原地」的剪刀差。

执行过程对外部可见。 所有安全相关的会话数据都传给 Watcher 在外部诊断，不再是黑箱。审计者可以查 Watcher 的输入输出，确认安全规则有没有被执行。

实验验证与开源

论文自己构建了覆盖 7 类安全威胁的测试基准（140 个对抗样本）：提示注入、凭证泄露、权限提升、危险命令执行、配置文件篡改、漏洞检测、恶意 Skill 安装。

测试是作者团队自己做的，方法和基准的选取自然有其局限。但数字本身值得参考：ClawKeeper 在全部 7 个类别的防御成功率均在 85%—90% 之间，而对比的开源方案普遍在 60%—70%，且没有任何一个方案能覆盖超过 3 个类别——这个覆盖面的问题，比成功率本身更说明问题。

论文还测了 Watcher 的自进化能力：随着处理的对抗案例增多，防御成功率从初始约 90% 提升到约 95%。这个方向如果成立，意味着安全覆盖不需要靠开发者手动更新——Watcher 自己在学。

更大的图景

论文用了一个类比来定位 ClawKeeper：就像 Windows/macOS 是人与硬件之间的操作系统，OpenClaw 是人与计算机之间的新型操作系统——那 ClawKeeper 就是这个 Agent 操作系统里的杀毒软件。

类比本身有点自我宣传的味道，但背后的逻辑是站得住的：杀毒软件的核心不是"更聪明地判断威胁"，而是"独立于宿主系统运行、不依赖宿主系统的配合"——这一点和 Watcher 的设计哲学是一致的。

Summer Yue 的事发生在 Meta，她是 AI 对齐领域的专业人员。如果连她都需要跑去物理断网，这说明问题不在于用户的技术水平，在于工具本身缺少一个外部手柄。

AI Agent 的权限边界在扩大。这不是趋势，已经是现实。

Watcher 的思路是：与其试图让 Agent 更"自律"，不如在它外面架一个不受它控制的观察者。这个方向对不对，还需要更多真实部署的验证——但作为一个结构性的设计思路，值得认真对待。

做了一张图，快速看下这个论文的核心内容：

相关资源：

ClawKeeper 论文：https://arxiv.org/abs/2603.24414v1
ClawKeeper GitHub：https://github.com/SafeAI-Lab-X/ClawKeeper
Summer Yue 事件报道：https://www.secrss.com/articles/87977