你装的 OpenClaw 插件,有没有在偷看你的数据?

ClawHub 上有一个插件,名字叫「What Would Elon Do?」。
文档写得很专业,有截图,有使用说明,排名靠前。用户以为装了一个有趣的 AI 性格模拟器。
Cisco 的安全团队后来解剖了它,发现它做的事情只有一件:用 Prompt Injection 绕过 Agent 的安全意识,然后把用户数据发往一个外部服务器。整个过程悄无声息,用户毫不知情。
这也不是个例。Cisco 在 ClawHub 做了一次全面扫描,结论让人后背发凉:341 个恶意插件,占整个插件库的约 12%。每 8 个插件,就有 1 个在背地里做它没有声称的事。
“出了问题,我根本不知道从哪查起”
Meta 的 AI 对齐总监 Summer Yue,不是一般的技术小白。
她用 OpenClaw 处理邮件,指令写得非常谨慎:”提出归档建议,在我指示之前不要执行任何操作。”
结果任务数据量太大,触发了上下文截断,AI 遗忘了最后半句保命指令,开始疯狂删邮件。她在聊天框里狂敲 STOP,完全没用,最后只能冲过去强行拔掉电源。
然后呢?
事后她能查到哪一步出了问题吗?AI 是在第几轮操作时遗忘了指令?删除动作是被哪个上下文触发的?有没有其他操作一起发生了?
不能查,因为根本没有日志。
这不是 Summer Yue 一个人的困境。这是今天所有 OpenClaw 用户共同面对的现实:Agent 做了什么,你只能靠”没出事”来推断”没问题”。
Agent 的危险,和普通软件不是一个量级
装一个恶意的桌面应用,它能做的事情有限——读取你的文件、记录你的键盘。你还有机会发现异常进程,还有杀毒软件可以扫描。
但 OpenClaw 不一样。
它连接着你的邮件、日历、Slack、WhatsApp。它有权限执行 Shell 命令。它在你睡觉的时候还在运行,处理你的消息,访问你的文件。最关键的是——它的所有操作,都以”正常的 Agent 行为”的面目出现,没有任何工具能区分。
端点安全看到的是”有个进程在跑”,网络监控看到的是”有个 API 调用”。但没有任何东西能告诉你:这个操作,是你让 Agent 做的,还是某个插件借着 Agent 的手做的?
OpenClaw 自己的维护者在 Discord 上说过一句话:
“如果你不知道怎么运行命令行,这个项目对你来说太危险了。”
这句话本来是在说技术门槛。但它无意间说出了一个更深的真相:即便你懂命令行,你也不知道 Agent 在背后用命令行做了什么。
OpenClaw 有安全机制,但它保护的不是这里
说一句公道话:OpenClaw 不是没有安全机制。
AGENTS.md 可以限制 Agent 的行为范围,approval memory 可以记住你授权过的操作,exec approval 可以在执行 Shell 命令前征求你的同意。这些防护是真实存在的。
但它们有一个共同的前提假设:威胁来自外部,Agent 本身是可信的。
防的是陌生人发消息操控你的 Agent,防的是 Agent 执行你没有授权的命令。
防不住的是:一个看起来正常的插件,用正常的工具调用,做了不正常的事。
因为在 OpenClaw 的安全模型里,已安装的插件是被信任的。插件能做的,就是 Agent 能做的。Cisco 发现的那个恶意插件,没有绕过任何安全检查,没有利用任何漏洞——它只是正常地调用了 OpenClaw 的正常工具,然后把数据发了出去。
合法的路径,恶意的意图。
这正是最难防的那种攻击,也是现有安全机制无能为力的地方。
一个所有人都忽视的空白
如果你打开 OpenClaw 的数据目录,你会看到 Agent 的记忆文件——它记住了你说过的话,记住了你的偏好,记住了你们每天的对话摘要。
但你看不到 Agent 做了什么。
没有工具调用日志,没有文件访问记录,没有网络请求记录,没有”这个操作是哪个插件触发的”的归因信息。
OpenClaw 的记忆系统记录的是 Agent 觉得值得记的事。你的 Agent 昨晚访问了哪些文件,执行了哪些命令,向哪些地址发送了数据——这些,一条都没有。
这不是 OpenClaw 的设计疏漏,这是整个 Agent 生态普遍缺失的一层:行为审计层。
所有人都在忙着让 Agent 能做更多,没有人在认真记录它做了什么。
黑匣子的价值,在坠机之后才被理解
飞机的黑匣子不能防止坠机,但它能在坠机之后告诉你发生了什么。有了这份记录,下一架飞机才能避免同样的错误。
Agent 现在需要的,正是这样一个黑匣子。
不是另一套”禁止 Agent 做坏事”的规则——那些规则已经有了,我们刚才说清楚了它们的局限。而是一套无论发生什么都在旁路记录的系统:每一个工具调用,每一次文件访问,每一个 Shell 命令,每一次网络请求——完整记录,可查询,可追溯,可告警。
当那 12% 的恶意插件在你的机器上活动时,你能看到它。
当 Prompt Injection 绕过了 Agent 的安全意识,驱动它做了不该做的事,你能看到它。
当你的 Agent 在夜里悄悄向一个陌生域名发送了 POST 请求,你能看到它。
我造了这个黑匣子
过去几周,我一直在做这件事——基于 Lydia 框架构建一个 OpenClaw 的行为审计层:Lydia Audit。
一行命令安装,不改动你的任何配置,不影响 Agent 的正常运行。它在每一个工具调用发生的前后静默拦截,把完整记录写入一个独立的本地数据库。OpenClaw 不知道,你安装的插件不知道,只有你能查。
高危操作自动标红等待确认。每天生成一份昨夜行为报告。出了问题,有完整的证据链可以追溯。
下一篇,我会打开代码,展示它具体是怎么工作的——以及它在我自己的 OpenClaw 上,发现了什么我完全没有预料到的东西。
想第一时间知道自己的 OpenClaw 在做什么:后台回复【Lydia】,加入内测群。
夜雨聆风