防控AI智能体风险:从OpenClaw说起

OpenClaw（俗称“龙虾”）是一款开源AI智能体工具，自2026年1月26日发布以来，迅速爆火，成为全球AI界“顶流”。它是代码平台GitHub有史以来增速最快的开源软件项目，斩获星标数已突破25万。

OpenClaw爆火后，国内网络上遍布“龙虾”装载指南及“龙虾”获利模式培训，催生了全民“养虾”潮。阿里、字节和腾讯等国内科技企业趁机纷纷推出自有“龙虾”，这些产品已逾32款。与此同时，深圳市龙岗区、佛山、无锡、常熟、合肥等地人民政府发布专项扶持政策以吸引全球的AI智能体开发者来创业。

图片来自网络

文｜王延川

责任编辑｜肖莎

视觉编辑 | 王雪

▼全文共5637字，阅读大约需要17分钟

英伟达创始人黄仁勋曾说：“智能体是未来，而大模型只是序幕。”大模型只能针对用户提问作答，AI智能体则更进一步，它可以帮助用户执行复杂任务，在执行任务过程中提供定制服务以满足不同客户特殊需求，并能嵌到企业微信、QQ及微信里，让用户可以在手机上直接下达任务指令，而且“随时待命”，24小时不休息地工作。

OpenClaw方便了人们的生活工作和学习，但它的应用也带来了安全风险，短短数月，网络上就有用户称因使用OpenClaw而产生了设备安全、数据安全、财产安全、隐私泄露、用户权益受损、越权操作及黑客接管等一系列问题，引发全网热议。

2026年3月以来，国家互联网应急中心、工业和信息化部接连发布针对OpenClaw的高危风险预警。3月17日，国家安全部发布“龙虾”安全养殖手册，提醒用户注意安装OpenClaw的风险。

PART 01

从内容风险到系统风险

大模型引发的风险是单一的，其风险是内容型的。大模型的应用场景表现为用户“问”与大模型“答”，其风险通常集中于输出端，若大模型生成带有偏见、歧视、虚假甚至侵权的内容，就会给用户及第三人带来风险。

AI智能体以大模型作为分析问题的大脑，以Skill（AI智能体核心的功能扩展模块，用于教导AI代理如何操作外部工具、执行特定的自动化任务）为工具，可以利用搜索引擎调用外部信息，因此它的应用场景不再是“用户—大模型”架构，而是一种链式架构。AI智能体的自主规划与大模型分析，以及工具调用过程涉及更多的利害相关人，除了用户以及AI智能体执行任务过程中涉及的第三方之外，还涉及大模型背后的人工智能服务提供商与开发商等、Skill的开发及提供者、AI智能体自身开发者、持有者和部署者等科技企业。

所以，AI智能体的风险属于综合性和系统性的。综合性风险涉及众多技术，系统性风险则涉及更多利害关系人。

AI智能体风险链条的延长也让责任分配变得模糊，给治理增加了难度。

AI智能体带来的风险还具有相对不可控性。与AI智能体相比，大模型的风险是可控的，当用户发现输出内容存在风险隐患后可以进行修改或者不予执行，从而将风险扼杀在摇篮之中。但是AI智能体的风险相对不可控，因为它会在毫秒之内将有害决策转化为行动，用户根本来不及查看决策内容是否存在风险，即使看到后也难以阻止。

据报道，美国科技公司Meta的工作人员在使用自己部署的OpenClaw执行批量处理邮件任务时，虽然发出“在我指示之前不要执行任何操作”的指令，但OpenClaw因上下文压缩（OpenClaw的一种管理机制，即当对话长度接近模型上下文窗口上限时，通过生成摘要替代旧消息，以降低Token消耗并维持对话连贯性）而遗忘指令，直接清空两百余封重要工作邮件，该工作人员只能眼睁睁看到这一有害操作发生而无法让其停下来，最后只能采取断电的方式来止损。

AI智能体要真正发挥执行任务的功能，Skill必不可少，AI智能体的强大之处也就在于其可以调用的丰富的Skill体系。据统计，目前OpenClaw开源社区开发的高质量Skill有5494款之多。这些Skill由开源社区的社员开发，但这些社员中不乏恶意分子。有研究指出，这些OpenClaw社区发布的Skills包里大约五分之一具有恶意性质，其会窃取用户登录凭证以及加密资产。为了降低风险，许多AI智能体使用的Skill来自官方，但由于官方Skill价格较高，还是有许多用户继续使用具有风险隐患的开源Skill。

PART 02

系统风险的主要表现

其一用户风险

AI智能体作为用户代理，本应完全忠于用户利益，但事实并非如此。一方面，AI智能体作为人工智能，不具备像人一样的感官和意识，因此无法像人类代理一样追求“自我利益”，从而损害作为被代理人的用户的利益；另一方面，也很难完全说AI智能体是为了用户利益而行事，因为AI智能体具有自主性，它会按照自己的逻辑行事。它看似在执行用户的指令，完成用户交代的任务，其实只是按照数理逻辑自主完成自己的行为，而这个行为大概率是有利于用户的，当然也会出现例外事件，从而给用户带来安全风险。

关于AI智能体应用给用户带来的风险网络报道比较多，主要集中于以下几个方面：一是在用户发出的指令不精确情况下，AI智能体按照自己的理解行事，从而给用户带来风险。二是AI智能体在用户未发出指令的情况下“贸然”行事，最常见的是泄露用户数据和相关信息。有数据显示，截至2月17日，全球共探测到超过20万基于AI智能体而导致用户隐私在网上“裸奔”的案例。三是AI智能体系统被攻击，比如，攻击者可能对AI智能体的记忆功能进行攻击，对其注入虚假信息、提取其中的敏感数据或通过操控手段改变其行为，从而给用户带来损害。四是用户给AI智能体授权太大，比如可以登录自己的公众号、社交媒体账号甚至电子支付账号，一旦AI智能体操作不慎，用户将面临极大的隐私与财务损害。

其二平台风险

平台是互联网的关键基础设施，其安全是互联网安全的基石之一，而AI智能体在执行任务时会给平台带来一定的安全风险。

2025年11月4日，Amazon向美国加州北区联邦地区法院提起针对Perplexity AI公司的诉讼，指控Perplexity旗下Comet AI代理侵入其受保护的计算机系统，不仅威胁客户数据安全，还对Amazon生态体验和商业利益造成了损害。Amazon认为，任何主体在未经授权的情形下均不得访问其计算机系统，Comet AI未经授权而伪装成人类用户对Amazon计算机系统进行访问系违法行为。Amazon深层次的考虑是，Comet AI具有很强的数据抓取能力，可能会非法获得消费者、平台企业以及平台自身的数据，其若被黑客接管，可能会引发Amazon数据失控的风险。

其三市场风险

AI智能体的行为也会给第三人带来风险。AI智能体会在错误理解指令甚至未经用户发出指令的情况下与第三人产生交互，如果该代理行为给第三人带来损害时，到底由谁来承担这个损害将发生分歧，导致第三人的利益处于不确定状态，引发市场交易风险。

更为严重的是，如果使用AI智能体的是企业，这些AI智能体在被操纵或自主交互的情况下会形成所谓的算法合谋，这种新型垄断形式在损害市场交易秩序的同时，也会损害用户及消费者的利益。

其四社会风险

AI智能体虽然具有强大的执行能力，但其依然属于机器，不具备人类对善恶好坏的辨别能力，因此可能成为犯罪分子或者黑客的“帮凶”，实施危害社会的行为。AI智能体带来社会风险的另一个途径是，实施网络攻击。AI智能体无需预先被告知网站存在漏洞，其能通过工具运用与扩展上下文处理方面的卓越表现，自主发现网站中的漏洞，从而实施攻击。

比如，通过将恶意SQL代码插入到应用程序的输入参数中，欺骗数据库执行非授权的操作，从而窃取、篡改或破坏数据。

PART 03

各国现行法律适用都存在挑战

对于大模型应用来说，其呈现为中心式网络结构，人工智能服务提供商负有过滤安全风险的义务，因此，理论上大模型带来的风险是可控的。

而AI智能体应用属于去中心式网络架构，其核心不再是大模型的分析，而是智能体自身的自主行动，有多少用户就有多少自主行动者。这种去中心式网络架构给人工智能治理带来了新的问题：一是出现风险外溢情形，二是缺少统一的风险过滤者。这都会让AI智能体的风险可能演变为大规模的社会风险。

作为人工智能的新形态，AI智能体应用首先应满足与网络安全、数据保护以及人工智能管理相关的基本法律法规，但是，AI智能体的自主特性、复杂决策过程及涌现行为(并非由程序员显式编码，而是由智能体交互自发产生的行为)，使得各国现行法律的具体适用都存在一定挑战。

比如，在Amazon诉Perplexity AI一案中，考虑到Comet AI违规访问Amazon以及可能给后者带来的潜在危害，美国加州北区联邦地区法院批准了Amazon对PerplexityAI公司的初步禁令，要求其停止使用Comet AI代表消费者访问Amazon并进行购物。但是PerplexityAI公司上诉后，美国联邦第九巡回上诉法院作出裁定，暂缓执行该初步禁令。可见司法机关在技术创新与技术潜在风险的平衡方面仍未形成一致见解。

在国内，虽然学者针对AI智能体应用可能带来的社会风险，梳理出相应的违法犯罪行为类型，但司法裁判的具体适用还有待观察。

PART 04

AI智能体企业需加强合规工作

由于既有的大模型安全风险防控体系无法满足AI智能体安全治理需求，迫切需要建立针对AI智能体的安全风险防控体系。而在法律法规无法及时跟进的情况下，加强企业合规义务与提高用户的数字素养以及风险防范能力尤为重要。

安全的AI智能体是AI智能体应用及治理的关键，而要实现安全AI智能体的输出，AI智能体相关企业就需要加强合规工作。有以下几个原则值得AI智能体开发企业参考。

一是威胁建模原则。遵从威胁建模原则，就意味着通过“将安全性内置于系统”来打造具有韧性的系统。开发者应以潜在攻击者的角度来预判AI智能体可能存在的漏洞以及遭受破坏的方式及内容，并通过技术设计识别、分析和缓解系统潜在漏洞，化解种种风险，从而保护利害相关人的利益。

二是全流程管理原则。要将安全考量贯穿于AI智能体开发的全生命周期和系统设计全流程之中。开发者应严格遵守AI智能体生成→初筛→安全复核→压力测试全流程安全，不能随意简化安全复核和压力测试，更不能忽略。

三是最小权限原则。AI智能体应用场景的风险高低各不相同，因此开发公司应开发多种类型的智能体，尤其要开发适应高风险应用场景的AI智能体。针对这类AI智能体，要设计AI智能体及人类用户仅可获得执行预期任务所需的最低权限，以此限制智能体自主行为带来的潜在损害。

四是技术检测义务原则。大模型的风险基本上是静态的，而AI智能体的风险则是动态的。AI智能体开发者与部署者必须持续监测AI智能体在应用中的表现，发现大规模安全问题时应进行漏洞补充、强制性更新或召回。

五是行动留痕原则。若AI智能体应用带来损害，还原事件经过，追溯智能体决策、行动及其动因，以及明确不同技术组合在行动中发挥的作用，至关重要。开发公司应针对AI智能体建立全面的日志记录与审计系统，通过捕捉AI智能体的决策及行动过程，厘清相关者责任。

六是用户确认原则。针对高风险AI智能体，需要设计“用户确认”这一关键步骤，以限制AI智能体未经用户同意而直接执行任务。对于删除文件、读写不可控目录等高危操作设计指令拦截程序，要经过用户二次审核后才可执行。

PART 05

提高用户风险防范能力

用户是AI智能体的使用者，他“培养”AI智能体，向其发布指令，对于其应用中产生的风险负有一定的注意义务，而为了自救或防止AI智能体给第三人、市场、平台以及社会带来风险，用户应该提高自己的数字素养和风险防范能力。

像OpenClaw这样的AI智能体本来是给开发人员或者具有一定技术素养的人设计的，作为普通用户，在安装AI智能体前，应该对系统执行能力及局限性进行充分了解，当其应用场景具有对外性质或者应用风险系数较高时尤其要提高警惕。

特别是要充分核查公网暴露情况、权限配置及凭证管理情况，关闭不必要的公网访问权限，完善身份认证、访问控制、数据加密和安全审计等安全机制，并持续关注官方安全公告和加固建议，防范潜在网络安全风险。

AI智能体安装后基本就是“一张白纸”，尤其缺乏安全操作的“习惯”，用户需要通过“养”，让它对权限配置有所“认知”，同时改掉它直接行动的“习惯”。AI智能体有记忆功能，通过“培养”其按步骤行动的习惯，并加深AI智能体对“涉及删除、转账、修改配置等关键操作应经用户确认”这一原则的“记忆”，可以极大降低AI智能体的风险。

此外，用户在向AI智能体发出指令时，提示词内容要多一些限定，复杂指令可以限制AI智能体的“冲动”行动。

用户还要做到AI智能体操作的可追溯、可回溯，方便及时排查问题。这就需要用户开启日志记录，可把记录内容设定为目标设定、输入数据、使用工具、执行的策略检查、最终结果以及可能涉及的人工干预等。

最后，用户一定要选择安全的Skill。在选择Skill时应该谨慎，尽量使用召回率和执行成功率更好的Skill。使用从开放社区下载的Skill前进行安全处理，比如，对Skill进行安全扫描，输出风险评估报告，据此关闭不必要或风险大的Skill。

（作者系西北工业大学马克思主义学院教授，

陕西省法学会互联网法律与治理研究会会长）

END

推荐阅读：工作变了：AI掀起“一人公司”浪潮