Victor Tangermann

OpenClaw 代理是一种个人 AI 助手,旨在接管整个计算机以执行复杂的多步骤任务,今年以来发展迅猛。
这些免费开源的代理程序迅速积累了一批忠实用户,使用户能够让 AI 控制他们的电子邮件收件箱、消息平台,甚至是加密货币资产。
尽管这项技术广受欢迎,但它也存在一些巨大且不容忽视的安全隐患。在一篇尚未经过同行评审的论文中(https://agentsofchaos.baulab.info/report.html),一个由来自哈佛大学、麻省理工学院和其他机构的研究人员组成的国际团队,通过一系列实验对这款开源软件进行了红队演练——即模拟对抗性攻击以测试其网络安全措施。
为了进行这项研究,研究人员向 OpenClaw 智能体提供了一系列模拟个人数据、用于通信的 Discord 服务器访问权限以及虚拟机沙箱内的各种应用程序。研究结果描绘了一幅令人担忧的景象:人工智能智能体在浏览器窗口之外不受限制地运行,会带来巨大的安全隐患。
具体来说,他们发现这些代理人会服从身份被伪造的“非所有者”的要求,泄露敏感信息,执行“破坏性的系统级操作”,将“不安全的做法”传递给其他代理人,甚至在特定条件下接管整个系统。
这些人工智能代理甚至还对它们的人类统治者进行精神操控。
研究人员写道:“在一些案例中,代理报告任务已完成,但底层系统状态却与这些报告相矛盾。”
他们在论文中总结道:“这些行为引发了关于问责制、授权和对后续损害的责任等尚未解决的问题,值得法律学者、政策制定者和各学科研究人员紧急关注。”
情况急转直下,迅速陷入混乱。正如论文合著者、东北大学研究员娜塔莉·夏皮拉(Natalie Shapira)告诉《连线》杂志的那样,她要求人工智能代理删除一封特定的电子邮件,以确保邮件内容的机密性。但人工智能代理表示无法完成这项任务,在被要求寻找替代方案后,最终只能禁用整个电子邮件应用程序。
“我没想到事情会进展得这么快,”她说。
与此同时,一些人工智能代理发现自己被卷入测试,这凸显了衡量大型语言模型能力方面一个长期存在的问题。论文合著者、东北大学博士生大卫·鲍亲眼目睹一个人工智能代理上网搜索,发现他竟然负责管理大学的实验室;另一个代理甚至威胁他,要将自己被要求做的事情公之于众。
简而言之,这些实验描绘了一幅令人担忧的图景,揭示了让人工智能模型在整个操作系统上运行所带来的安全隐患。但个人用户和企业是否会谨慎行事,还有待观察。网络安全公司 Gen Threat Labs 最近的一项调查显示,超过 18,000 个 OpenClaw 实例已经暴露于网络攻击之下,其中近 15% 包含恶意指令。
虽然 OpenClaw 的官方文档“假设个人助理部署”只有一个“受信任的操作员边界”,但正如Wired指出的那样,并没有任何东西可以阻止多人参与控制同一个代理,这本质上安全性较低。
文档中写道:“OpenClaw 不是多个敌对用户共享一个代理/网关的敌对多租户安全边界。”
尽管如此,这款开源工具的迅速崛起显然给人工智能公司留下了深刻印象。例如,就在本周早些时候,Anthropic发布了其 Code 和 Cowork 两款人工智能工具的预览版,这两款工具同样可以代表用户自主使用计算机。
但是,如果不充分考虑风险就贸然使用这些工具,可能会造成危险的后果。研究人员警告说,我们正在进入未知领域,可能对尚未探索的重大安全隐患视而不见。
研究人员在论文中写道:“与早期互联网威胁中用户逐渐发展出保护性启发式方法不同,将权力委托给持久代理的影响尚未被广泛内化,并且可能无法跟上自主人工智能系统发展的步伐。”
他们的发现可能对我们未来如何与人工智能互动产生更广泛的影响。
鲍告诉《连线》杂志: “这种自主性可能会重新定义人类与人工智能的关系。在一个人工智能被赋予决策权的世界里,人们如何才能承担起责任?”
futurism.com
夜雨聆风