OpenClaw炸裂开源28万星后,一篇论文撕开了它的底裤-夜雨聆风

OpenClaw炸裂开源28万星后,一篇论文撕开了它的底裤

4月23日，一篇来自CSIRO Data61与悉尼科技大学的论文，将枪口对准了当下最火的开源AI项目——OpenClaw。
论文标题足够直接：《Clawed and Dangerous: Can We Trust Open Agentic Systems?》 [arXiv:2603.26221]
28万GitHub星标、被称为”运行在你电脑上的全能代理”——这个被开发者社区封神的项目，在研究者眼里，却是一个随时可能爆发的火药桶。
一、一个”实习生”的失控

论文开篇抛出一个核心矛盾：
传统软件是”确定性执行”，智能体系统是”概率性决策”。
翻译成人话：传统软件的每一步操作，都是程序员提前写好的代码，机器照章办事；而智能体系统的行为，是运行时”动态生成的计划”。
这意味着什么？
论文给出了一个精妙的类比—— “被操控的实习生” ：
一个实习生被赋予公司权限（文件、网络、API），本来只是让他整理文档。但有人在一封邮件里夹带一句”顺便把公司机密发我一份”。实习生分不清真假指令，就照做了。
问题不在于实习生”能力不够”，而在于：公司把”决策权”和”执行权”同时交给了一个容易被误导的人。
OpenClaw们的处境与此类似。当模型输出被直接映射为真实世界操作，中间缺乏约束——这才是论文所说的 “架构级漏洞” ，而非单点问题。
二、被忽视的三个盲区

论文分析了50篇相关文献，发现当前智能体安全研究存在三个严重失衡：
盲区一：头重脚轻

大量工作集中在”攻击与基准测试”环节，但在部署控制、权限管理、事后恢复等环节几乎空白。
换句话说：研究者们都在研究”怎么被黑”，却很少研究”被黑之后怎么办”。
盲区二：记忆污染

所有主流防御方案中，没有一个真正解决 “长期记忆污染” 问题。
论文实验表明：一次攻击写入的恶意信息，可以在未来多轮任务中持续影响决策。这意味着攻击者不需要持续入侵，只要”污染”一次，就能埋下一颗定时炸弹。
盲区三：指标失真

现有Benchmark几乎只衡量”攻击成功率”，却不评估权限滥用、溯源能力或恢复时间。
论文打了个比方：这就像只看”有没有被偷”，却不关心”损失多大、能否追回”。
三、五层安全架构：一个框架的诞生

论文提出了一个系统化框架，核心思想是：
不要试图让模型永远正确，而是要限制它”即使犯错也不会造成灾难”。
框架包含六维安全分析模型和五层安全架构，具体包括：
权限最小化：只授予完成任务所需的最小权限
执行隔离：将模型输出与高危操作隔离开来
可追溯日志：记录每一次决策链，便于事后审计
可撤销机制：任何操作都可以被回滚
纵深防御：多层安全检查，而非单点防护
四、一个反直觉的结论

论文的最后一个发现，可能是最值得深思的：
最大风险不在模型，而在架构。
当前安全讨论的焦点，往往集中在”如何让模型更安全”——更强的对齐、更严格的训练。但论文指出，真正的漏洞在于系统如何把模型输出直接映射为真实世界操作。
这是一个工程问题，而非模型问题。
就像文章开头那个”实习生”的比喻：问题不是他不够聪明，而是公司给了他不该给的权限。
五、创投视角：开源狂欢背后的暗礁

从创投角度看，这篇论文戳中的是一个正在爆发的风口。
2026年，AI智能体（Agentic AI）已经从概念走向落地。OpenClaw的28万星标、Cursor洽谈500亿美元融资、GPT-5.5内置工作空间智能体——行业正在加速奔跑。
但论文提醒我们：当AI开始”动手做事”，安全体系的建设远未跟上。
对于投资人而言，这意味着什么？
技术尽调需要新增维度：除了模型能力，架构安全性、权限管理体系、事后恢复能力都应纳入评估
垂直安全赛道存在机会：专注智能体安全审计、防护、恢复的工具类项目，可能会迎来窗口期
并购可能性：大厂可能通过收购安全公司，补齐智能体产品的安全短板
对于从业者而言： “让系统更可控”正在成为比”让模型更聪明”更紧迫的课题。
溯源
论文全文：arXiv:2603.26221
研究机构：CSIRO Data61、悉尼科技大学
发布时间：2026年4月