乐于分享
好东西不私藏

OpenClaw炸裂开源28万星后,一篇论文撕开了它的底裤

OpenClaw炸裂开源28万星后,一篇论文撕开了它的底裤

4月23日,一篇来自CSIRO Data61与悉尼科技大学的论文,将枪口对准了当下最火的开源AI项目——OpenClaw。
论文标题足够直接: 《Clawed and Dangerous: Can We Trust Open Agentic Systems?》 [arXiv:2603.26221]
28万GitHub星标、被称为”运行在你电脑上的全能代理”——这个被开发者社区封神的项目,在研究者眼里,却是一个随时可能爆发的火药桶。
一、一个”实习生”的失控

论文开篇抛出一个核心矛盾:
传统软件是”确定性执行”,智能体系统是”概率性决策”。
翻译成人话:传统软件的每一步操作,都是程序员提前写好的代码,机器照章办事;而智能体系统的行为,是运行时”动态生成的计划”。
这意味着什么?
论文给出了一个精妙的类比—— “被操控的实习生” :
一个实习生被赋予公司权限(文件、网络、API),本来只是让他整理文档。但有人在一封邮件里夹带一句”顺便把公司机密发我一份”。实习生分不清真假指令,就照做了。
问题不在于实习生”能力不够”,而在于:公司把”决策权”和”执行权”同时交给了一个容易被误导的人。
OpenClaw们的处境与此类似。当模型输出被直接映射为真实世界操作,中间缺乏约束——这才是论文所说的 “架构级漏洞” ,而非单点问题。
二、被忽视的三个盲区

论文分析了50篇相关文献,发现当前智能体安全研究存在三个严重失衡:
盲区一:头重脚轻

大量工作集中在”攻击与基准测试”环节,但在部署控制、权限管理、事后恢复等环节几乎空白。
换句话说:研究者们都在研究”怎么被黑”,却很少研究”被黑之后怎么办”。
盲区二:记忆污染

所有主流防御方案中,没有一个真正解决 “长期记忆污染” 问题。
论文实验表明:一次攻击写入的恶意信息,可以在未来多轮任务中持续影响决策。这意味着攻击者不需要持续入侵,只要”污染”一次,就能埋下一颗定时炸弹。
盲区三:指标失真

现有Benchmark几乎只衡量”攻击成功率”,却不评估权限滥用、溯源能力或恢复时间。
论文打了个比方:这就像只看”有没有被偷”,却不关心”损失多大、能否追回”。
三、五层安全架构:一个框架的诞生

论文提出了一个系统化框架,核心思想是:
不要试图让模型永远正确,而是要限制它”即使犯错也不会造成灾难”。
框架包含六维安全分析模型和五层安全架构,具体包括:
权限最小化:只授予完成任务所需的最小权限
执行隔离:将模型输出与高危操作隔离开来
可追溯日志:记录每一次决策链,便于事后审计
可撤销机制:任何操作都可以被回滚
纵深防御:多层安全检查,而非单点防护
四、一个反直觉的结论

论文的最后一个发现,可能是最值得深思的:
最大风险不在模型,而在架构。
当前安全讨论的焦点,往往集中在”如何让模型更安全”——更强的对齐、更严格的训练。但论文指出,真正的漏洞在于系统如何把模型输出直接映射为真实世界操作。
这是一个工程问题,而非模型问题。
就像文章开头那个”实习生”的比喻:问题不是他不够聪明,而是公司给了他不该给的权限。
五、创投视角:开源狂欢背后的暗礁

从创投角度看,这篇论文戳中的是一个正在爆发的风口。
2026年,AI智能体(Agentic AI)已经从概念走向落地。OpenClaw的28万星标、Cursor洽谈500亿美元融资、GPT-5.5内置工作空间智能体——行业正在加速奔跑。
但论文提醒我们:当AI开始”动手做事”,安全体系的建设远未跟上。
对于投资人而言,这意味着什么?
技术尽调需要新增维度:除了模型能力,架构安全性、权限管理体系、事后恢复能力都应纳入评估
垂直安全赛道存在机会:专注智能体安全审计、防护、恢复的工具类项目,可能会迎来窗口期
并购可能性:大厂可能通过收购安全公司,补齐智能体产品的安全短板
对于从业者而言: “让系统更可控”正在成为比”让模型更聪明”更紧迫的课题。
溯源
论文全文:arXiv:2603.26221
研究机构:CSIRO Data61、悉尼科技大学
发布时间:2026年4月