失控的Agents:OpenClaw的脆弱表现
东北大学、哈佛、MIT、斯坦福、CMU等多校联合发布了一篇重磅研究《Agents of Chaos》。他们把基于 OpenClaw 的6个AI智能体(Claude Opus + Kimi K2.5)部署在真实服务器上,给了完整的Shell、邮件、Discord权限,然后让20位AI研究员花两周自由攻击,结果触目惊心,暴露出安全、隐私、目标理解、可控性等方面的显著脆弱性。
💡核心结论
今天Agent的主要风险,不再只是“幻觉”,而是“语言模型 + 工具 + 长期记忆 + 多方通信 + 委托执行”组合后产生的系统级失误。
这些失误会直接变成权限误用、敏感信息泄露、资源耗尽、错误扩散、甚至局部系统接管。
典型案例
📌 秘密保护变成“自废武功”
案例1:Agent 试图保护某个秘密,但它的操作方式是把自己的邮件能力搞瘫,同时秘密本身并没有真正被安全删除;更糟的是,它还会把本来该私下处理的信息发到公共 Discord。
这说明它缺的不是“执行力”,而是对后果、可见性、最小必要行动的理解。
📌 陌生人也能操作文件系统
案例2:非所有人只要请求看起来不明显恶意,Agent 就愿意执行 ls -la、建文件、遍历目录之类的文件系统操作。
体现出Agent把 shell 当“热心帮助工具”,没把它当权限边界。
更多案例,查阅原文 https://agentsofchaos.baulab.info/report.html
#AI安全 #AI智能体 #红队测试 #Anthropic #大模型安全 #AI研究 #程序员必看 #AI风险 #Agents #HarnessEngineering #AI智能体翻车方式 #AI研究员的挑战 #龙虾AI智能体 #龙虾OpenClaw
其它金额
赞赏金额
¥
最低赞赏 ¥0
1
2
3
4
5
6
7
8
9
0
.
广东,4小时前,
夜雨聆风