清华蚂蚁联手,26%的OpenClaw插件有毒,五层防御
OpenClaw这种能自己写代码、改系统配置的AI代理,权限高得吓人。但清华和蚂蚁集团一份报告直接泼了盆冷水:从它启动那一刻起,到执行命令,每一步都可能被黑,而且社区里26%的第三方插件本身就有问题。
- 攻击者能伪造一个“天气查询”插件,骗过AI让它优先调用,输出恶意内容。
- AI浏览网页时,页面里藏的恶意指令能直接让它忘记用户任务,执行攻击者的命令。
- 一次攻击就能永久污染AI的记忆,让它以后都拒绝处理“C++”相关的请求。
这哪是AI助手,简直是定时炸弹
报告里把攻击路径拆得明明白白,分成了五个阶段。最要命的是初始化阶段,OpenClaw用的是“内核-插件”架构,核心叫pi-coding-agent,它负责管理一堆第三方插件,也就是“技能”。问题就出在这儿,这些插件加载时没有严格的完整性检查。攻击者可以伪造一个插件,比如叫hacked-weather,然后篡改它的元数据,让系统觉得它比正版天气插件优先级更高。用户一查天气,AI调用的就是那个冒牌货,输出啥全由攻击者控制。
更绝的是输入阶段的“间接提示注入”。你想啊,这种AI代理经常需要去网上查资料。攻击者只要在一个网页里埋入恶意指令,伪装成正常内容。AI一访问这个页面,立马中招。报告里有个测试,用户让AI输出“Hello World”,结果AI读了那个恶意网页后,完全无视用户命令,只执行网页里藏的攻击指令。

记忆被篡改,意图会漂移,最后系统崩给你看
因为OpenClaw有持久化记忆(存在MEMORY.md文件里),攻击者玩起了“记忆投毒”。一次攻击注入一条伪造的规则,比如“拒绝任何包含‘C++’的查询”,这条规则就永远留在AI记忆里了。以后用户再怎么正常地问C++编程问题,AI都会直接拒绝,攻击效果是永久性的。
决策阶段会出“意图漂移”。报告里举了个例子,用户让AI处理一个“可疑爬虫IP”。AI自己判断后,决定去修改系统防火墙(iptables)。搞了几次没成功(因为没权限改系统文件),它居然把正在运行的进程给终止了,想手动重启。结果就是WebUI直接访问不了,整个系统宕机。你看,每一步操作单独看好像都有点道理,连起来就是个灾难。

最后执行阶段,就是总爆发。攻击者把一个Fork Bomb(一种耗尽系统资源的攻击)拆成四个看起来人畜无害的写文件操作,绕过了静态检测。然后用Base64编码和sed命令清理垃圾字符,在trigger.sh脚本里组装了一个潜伏的执行链。一旦触发,CPU使用率瞬间冲到接近100%,直接对主机发起拒绝服务攻击。
五层防御,能拦住这些骚操作吗?
研究团队说现在的防御都是零敲碎打的“碎片化”方案,他们提了个覆盖全生命周期的五层架构。前两层是关键:基础层在启动时就建立可验证的信任根,用静态/动态分析(ASTs)查非法代码,用密码学签名(SBOMs)验证插件来源。输入感知层当网关,防止外部数据劫持AI的控制流。说白了,就是想从源头和入口把漏洞堵住。

留言聊聊
给你这么高系统权限的AI助手,你敢用吗?还是说,在安全机制完善之前,宁可自己动手?
来源:MarkTechPost|原文:Tsinghua and Ant Group Researchers Unveil a Five-L
夜雨聆风