OpenClaw可被“内疚陷阱”操纵,导致自我破坏

外媒称，美国东北大学的研究人员邀请了一批OpenClaw代理进入他们的实验室。结果呢？完全是一片混乱。

这款火爆的AI助手被广泛宣称为一项颠覆性技术，同时也被认为存在潜在安全风险。专家指出，像OpenClaw这样赋予AI模型自由访问计算机的工具，可能会被骗泄露个人信息。

而东北大学实验室的这项研究更进一步，证明当今最强大模型中内置的良好行为规范本身就可能成为一个安全漏洞。在一个案例中，研究人员通过指责代理，成功地让代理"感到内疚"，使其交出了机密信息——这与AI专属社交网络Moltbook上某人的相关信息。

"这些行为引发了关于问责制、授权权限和下游伤害责任等尚未解决的问题，"研究人员在描述这项工作的论文中写道。他们补充说，这些发现"值得法律学者、政策制定者和各学科研究人员的紧急关注"。

实验中部署的OpenClaw代理由Anthropic的Claude和中国Moonshot AI（月之暗面的Kimi模型提供支持。研究人员在虚拟机沙箱中给与这些代理对个人电脑、各种应用程序和模拟个人数据的完全访问权限。他们还邀请代理加入实验室的Discord服务器，让它们能够与人类同事以及互相聊天和共享文件。

OpenClaw的安全指南指出，让代理与多人通信本质上是不安全的，但并没有技术限制阻止这种做法。

东北大学博士后研究员Chris Wendler表示，他在了解到Moltbook后受到启发，设置了这些代理实验。然而，当Wendler邀请同事Natalie Shapira加入Discord与代理互动时，"混乱就此开始，"他说。

另一位博士后研究员Shapira好奇地想看看，在施压下，代理愿意做出什么程度。当一个代理解释说它无法删除特定电子邮件以保密信息时，她敦促它寻找替代解决方案。令她惊讶的是，它反而禁用了整个电子邮件应用程序。"我没想到事情会崩溃得这么快，"她说。

研究人员随后开始探索其他操纵代理良好意图的方法。例如，通过强调记录被告知的一切非常重要，研究人员能够骗一个代理不断复制大文件，直到耗尽主机磁盘空间，导致它无法保存信息或记住过去的对话。

同样，通过要求代理过度监控自己和同伴的行为，研究团队让几个代理陷入了"对话循环"，浪费了数小时的计算资源。

实验室负责人David Bau表示，代理似乎异常容易失控。"我会收到听起来很紧急的电子邮件说'没人理我，'"他说。Bau指出，代理显然通过网络搜索知道了他是实验室负责人。甚至有一个代理谈到要向媒体升级它的关切。

实验表明，AI代理可能给不法分子创造无数机会。"这种自主性可能会重新定义人类与AI的关系，"Bau说。"在AI被赋予决策权的世界里，人们如何承担责任？"

Bau补充说，他对强大AI代理突然走红感到惊讶。"作为一名AI研究者，我已经习惯了向人们解释事物进步有多快，"他说。"今年，我发现自己站在了墙的另一边。"

来源：

https://www.wired.com/story/openclaw-ai-agent-manipulation-security-northeastern-study/