王少 | “龙虾”OpenClaw类代理式人工智能的应用价值、风险挑战与应对策略-夜雨聆风

王少 | “龙虾”OpenClaw类代理式人工智能的应用价值、风险挑战与应对策略

【作者简介】王少，同济大学马克思主义学院教授，博士生导师，同济大学中国特色社会主义理论研究中心特约研究员。

【基金项目】上海市哲学社会科学规划中青班专项课题“本地化部署人工智能大模型的伦理风险及治理研究”(2026FZX010)阶段成果。

【摘要】“龙虾”OpenClaw的问世，将公众视野引向代理式人工智能这一新兴技术领域。作为人工智能技术的新形态，代理式人工智能自主设定任务、理解复杂指令、感知环境动态、与环境交互，并在无人持续干预的情况下独立决策与执行，最终完成指定目标。与生成式人工智能相比，代理式人工智能不局限于内容生成，更能广泛应用于各行各业，其更高的自动化程度、更显著的效率提升能力及与人类更相似的行为模式，能够大幅改善用户体验，拓展用户能力边界，对经济发展与社会进步具有重要推动意义。与此同时，也需重视其带来的多重风险：在技术层面，既存在技术性能本身的不确定性，也包括技术应用过程中可能出现的安全隐患；在伦理方面，代理式人工智能可能加剧隐私泄露、数据偏见等既有伦理问题；在法律上，涉及合规挑战与责任归属难题；在社会层面，其影响还可能延伸到经济发展、就业形势、环境保护等多个维度。为应对这些风险，有必要采取一系列防范策略。实施技术规制措施，优化对齐税；设置防护栏，并强制推广；以应用为主线，构建更为完善的责任追究机制。

【关键词】代理式人工智能；自主性；适应性；环境交互；防护栏；“龙虾”

《中华人民共和国国民经济和社会发展第十五个五年规划纲要》要求，“抢占人工智能产业应用制高点，全方位赋能千行百业。”抢占人工智能产业制高点，必须把握人工智能发展动态，而代理式人工智能正是人工智能科技新的重要发展形态。OpenClaw作为典型的代理式人工智能，甫一问世便引爆全网。当“养龙虾”“养马”(Hermes Agent)成为热词，代理式人工智能开始走向千行百业。

2024年3月，斯坦福大学计算机科学教授吴恩达(Andrew Y. Ng)在Snowflake峰会开发者日上发表“How Al Agentic Workflows Could Drive More Al Progress Than Even the Next Generation of Foundation Models”的演讲，对代理式人工智能(Agentic AI)这一概念作了权威阐释。2025年3月，黄仁勋(Jensen Huang)在英伟达GTC2025大会主题演讲中将代理式人工智能视为生成式人工智能之后的下一阶段人工智能技术。著名IT研究与咨询公司Gartner分析称，到2028年，33%的企业软件应用程序将包括代理式人工智能，远高于2024年的不到1%,从而使15%的日常工作由AI代理完成。目前，我国已有企业发布了Agentic AI自研EDA平台。虽然代理式人工智能功能强大、用途广泛，但其风险也不容忽视。Meta超级智能实验室AI对齐与安全总监Summer Yue声称其部署的OpenClaw自主删除了超过200封重要邮件；OpenAI工程师Nick Pash为测试OpenClaw平台而创建的AI交易智能体Lobstar Wilde因系统漏洞遭遇诈骗，被转出25万美元的加密货币。然而，代理式人工智能尚未引起我国学界重视，目前仅有极少数纯技术性研究。本文从代理式人工智能的技术机理出发，详细阐释代理式人工智能的应用场景与价值，全面分析代理式人工智能的风险挑战，并提出应对策略。

一、代理式人工智能及其应用价值

代理式人工智能的概念可以追溯到AI Agent（人工智能代理／智能体）。1995年，就有学者将“AI Agent”界定为在特定环境中自主行动，从而实现设计目标的计算实体，但代理式人工智能不等于AI Agent。今天所谓的代理式人工智能是指能够适应性地追求复杂目标、使用推理并受到有限直接监督的系统。OpenClaw类代理式人工智能可以自主设定目标、理解复杂指令、感知环境变化、与周围互动，并能在没有人工持续指导的情况下，自主作出决策并执行，以完成目标。

（一）代理式人工智能的技术机理与特征

1.代理式人工智能的技术机理

代理式人工智能框架的四大支柱是工具使用、反思、规划以及多智能体协作。工具使用指使用大语言模型调用搜索引擎等外部资源，反思指自我修正与迭代反馈，规划功能用于结构化拆解任务，多智能体协作指通过多个大语言模型协同完成子任务。代理式人工智能的主要技术支持包括软硬件和动态集成两个方面。

从硬件来看，除用于加速模型训练和推理的高性能计算设备GPU、TPU外，还需要用于本地处理数据的边缘计算设备和摄像头、麦克风等用于采集环境数据的传感器。软件方面，除大语言模型外，用于构建和训练模型的深度学习框架(Tensor Flow、Py Torch等），用于管理计算资源和运行程序的操作系统，用于连接组件实现数据传输的中间件，以及用于集成和使用代理功能的应用程序编程接口(Application Programming Interface, API)和软件开发工具包(Software Development Kit, SDK),均不可或缺。

在集成方式上，主要包括数据融合、模块化设计、微服务架构和容器化等。数据融合通常分为对不同模态数据特征在早期进行融合的特征级融合、在决策阶段对已完成处理的数据进行的决策级融合和在模型训练过程中联合优化不同模态数据的模型级融合；模块化设计指将代理式人工智能划分为感知模块、决策模块、执行模块等负责特定功能的模块，并通过接口使模块间通信和协作，以实现系统整体功能；微服务架构是将代理式人工智能系统拆分成语言理解服务、图像处理服务等多个独立微服务系统，并利用API进行通信和协作，以提高系统灵活性和可扩展性；容器化指使用Docker等容器技术，将代理式人工智能的不同组件打包和隔离，实现快速部署和资源管理，并通过Kubernetes等编排工具自动化管理和调度。

代理式人工智能的技术运行流程可以简单划分为任务接收、行动规划和执行三步骤。用户提出任务后，代理式人工智能解析用户请求，自主理解并与用户沟通，明确任务目标；然后细化分解目标，生成实现目标的策略和步骤；最后根据需要调配计算资源，按照步骤执行策略，监控执行情况并向用户反馈。代理式人工智能在执行过程中会根据环境变化、用户反应，调整代理任务的执行策略，最大化完成目标。

2.代理式人工智能的技术特征

代理式人工智能执行的任务目标相对比较复杂，且面临多样的外部环境，因此其技术特征表现为：既要具有较高的自主性和适应性，还要具备环境感知能力，并能进行自主学习和监督。

从自主性来看，代理式人工智能可以独立行动，自主设定复杂目标，在无人类监督的情况下长时间运行，在有限的人为干预下可靠地执行任务。从适应性来看，代理式人工智能能够在复杂的环境中运行，在不同的应用场景中灵活调整其行为。从环境感知来看，代理式人工智能具备强大的交互能力，能够通过传感器理解周围环境，主动绕过障碍。从学习和监督来看，代理式人工智能会通过试错学习调整策略和优化行为，以更好满足用户需求。当遇到问题时，代理式人工智能会在尝试几次后改换方案，在每一个子任务完成后，代理式人工智能还会根据获取的新数据重新评估任务执行情况，如果发现偏差则及时调整。

深入了解代理式人工智能的技术特征，有必要将其与生成式人工智能进行比较。作为后生成式人工智能阶段的人工智能，代理式人工智能以大语言模型为核心组件。有研究指出，“并非所有的大语言模型都适合采用代理方法”,只有能力比较突出的大语言模型，如ChatGPT-4及优于其的大模型才具有代理潜力。生成式人工智能能够和代理式人工智能形成合作关系，有学者研究发现，可以使用生成式人工智能加速传统软件开发，而代理式人工智能则可在此基础上用于创建真正的自适应系统。

代理式人工智能和生成式人工智能的主要区别包括：在学习方式上，生成式人工智能依赖无监督学习或半监督学习，而代理式人工智能更多依赖强化学习和自我监督学习；在功能上，生成式人工智能根据用户输入要求生成新的内容，而代理式人工智能自主设定目标，并在动态环境中自主运作；在交互层面，生成式人工智能不与环境交互，而代理式人工智能具备强大的环境交互能力；在应用场景上，生成式人工智能主要应用于不同行业的内容生成领域，而代理式人工智能则可应用于各行各业的大部分工作领域；在决策方式上，生成式人工智能通常只会根据要求输出建议，而代理式人工智能能够基于情境感知进行动态决策。生成式人工智能由于缺乏自主性和适应性，如GPT-4“在处理需要深思熟虑、多步骤流程的复杂推理任务时，往往表现欠佳”,并且，生成式人工智能的工作流程是线性的，从开始到完成体现出一次性的特点，通常不会主动二次完善输出内容。代理式人工智能则能独立运作并在每个阶段进行学习，同时持续评估和调整任务，在“思考—任务拆解—执行—学习反馈—优化”的步骤中提高任务完成效果。

（二）代理式人工智能的应用场景与价值

OpenClaw类代理式人工智能开创了人工智能应用新范式，它能够自主追求复杂目标，并最大限度减少人类干预。“代理式人工智能展现出适应性、高级决策能力及自给自足特性，使其能够在不断变化的环境中动态运行。”这意味着代理式人工智能的应用场景非常广泛，能够在不同场景中处理各种复杂事务，具有不容忽视的应用价值。

1.代理式人工智能的应用场景

代理式人工智能既可以作为个人工作助手，又可以成为产业发展驱动。从个人角度看，代理式人工智能能够帮助用户完成各项任务，既包括文档管理、邮件处理等工作，也包括与生活相关的购物、烹饪等活动。当用户通过指令与代理式人工智能交互后，代理式人工智能便能自主执行任务。比如，用户向代理式人工智能下达开会命令，代理式人工智能在与用户确认开会主题、需求后，自动整理开会材料、调整开会时间、邮件通知参会人员、制作发言稿。又如，用户向代理式人工智能传达制作营养餐需求后，代理式人工智能主动检索并整理营养餐菜谱，同时匹配用户健康信息和口味习惯，为用户量身定制营养餐清单。

代理式人工智能可以广泛地应用于金融业、制造业和服务业等行业。在金融业中，代理式人工智能提供投资建议、实施风险评估、进行算法交易，提高金融服务效率和准确性。代理式人工智能根据市场数据和用户偏好优化投资组合，提高投资回报率，自动分析各种投资风险因素，进行欺诈检测，通过自动化交互界面提供即时性客户支持。在制造业中，代理式人工智能通过预测功能实现自主控制和生产优化，提高生产效率和产品质量。代理式人工智能根据生产计划和实时数据调整生产参数，实现预测性维护和流程控制，如果发现生产过程中存在异常情况，代理式人工智能会及时采取措施，确保生产顺利进行。在服务业中，代理式人工智能既可以化身为客服，又可以直接提供服务。代理式人工智能作为客服能与服务对象进行沟通交流，理解服务对象问题并提供解决方案。直接服务方面，如智能家居系统中的代理式人工智能可以通过连接和控制智能设备实现家居自动化，并根据用户生活习惯和喜好自动调整家居环境。

在交通运输、医疗健康和教育培训领域，代理式人工智能的应用已比较成熟。在交通运输中，自动驾驶系统是典型的代理式人工智能，其只需获得目的地指令，即可通过综合分析传感器数据、自主识别路况、行人和其他车辆，作出驾驶决策，安全高效地到达目的地。代理式人工智能还可用于智能交通管理和物流运输优化，根据实时交通状况和物流需求自动控制红绿灯时间和调整运输路线。在医疗健康领域，代理式人工智能凭借自动化诊断、治疗方案推荐和患者监护等功能，提高医疗服务效果，实时监测患者健康状况并及时预警。代理式人工智能利用深度学习技术分析医学影像资料，辅助医生进行早期疾病筛查，提高诊断准确率。在教育培训领域，代理式人工智能可以发挥智能辅导功能，通过学习进度跟踪为教师提供个性化教学方案，还可以在实时分析学生学习情况的基础上为学生规划个性化学习路径。

2.代理式人工智能的应用价值

代理式人工智能的应用优点可以从更自动、更高效、更真实三方面来理解。首先，代理式人工智能更自动。在各种应用场景中，代理式人工智能依靠强大的自主性和适应性将人类干预减至最少，而将工作范围和内容增至最多，自动化地完成各项任务。其次，代理式人工智能更高效。代理式人工智能在领会人类用户真实意图后，会在环境交互和数据分析中选择最有效率的一条路线，以最快的速度完成任务。如果路线选择错误，代理式人工智能也能够做到自我纠错，及时调整。最后，代理式人工智能更真实。代理式人工智能为用户提供全流程代理工作，而这些原先只能由人完成。代理式人工智能精准领悟用户要求，模拟人类行为模式，并在任务处理过程中进行及时反馈和纠错，给用户带来更加真实的感受。

从上述应用优点出发，可以清晰了解代理式人工智能的应用价值。首先，从人的角度看，代理式人工智能能够大幅改善用户体验和拓展用户能力。代理式人工智能将语言交互和环境交互充分结合，使反馈和纠错更加智能和自动，不仅实时响应用户问题，还为用户提供更加符合需求的服务。整体上看，代理式人工智能通过数据分析和全面代理，以远超人类的效率完成任务；个体上看，代理式人工智能不是提出建议进行辅助，而是直接以强大的综合性能力完成依靠用户个人无法或难以完成的任务。其次，从社会角度看，代理式人工智能能够推动经济发展和社会进步。代理式人工智能几乎可以应用于社会生活的各个方面，可以为全行业提供技术支持，因其自动性和高效性大幅提高生产效率，促进新质生产力发展。比如在制造业中，代理式人工智能可以通过预测性维护，减少设备停机时间，保证高效生产。社会进步以个人为单位、以空间为载体，现代社会空间发展主要包括城市建设和环境保护。代理式人工智能在个人陪护、城市建设、环境保护等方面均具有重要意义。通过拟人而真实的陪护，代理式人工智能能够显著提高民众生活质量；通过优化能源和交通等系统运行，代理式人工智能可以提高城市建设和管理效率；通过实时监测和科学分析环境数据，代理式人工智能能够制定和执行更有效的环保措施。

二、代理式人工智能带来的风险挑战

当OpenClaw类代理式人工智能得到广泛应用后，其研发、部署中的风险会逐渐显现，最终向现实社会渗透，带来不容忽视的风险挑战。“有人账户里的钱被悄悄转走，有人电脑被黑客远程控制，还有人积累了多年的工作文件被一键清空”,这些风险一般不会发生在以往的人工智能，包括生成式人工智能的应用中。因此，必须深入把握代理式人工智能所引发的风险。

（一）技术风险：性能与过程性安全问题

作为一项新兴技术，代理式人工智能不可避免地存在技术性风险，主要体现在技术性能及其应用过程的安全性上。代理式人工智能可能会因为硬件故障、软件错误和网络问题而出现失效或误导。比如自动驾驶系统会因为传感器故障而错误识别交通状况，最终导致事故发生。即使软硬件和网络都没有问题，代理式人工智能的技术性能要达到设定水平，还取决于系统集成的程度和任务的难度，如果集成程度不够或任务难度过高，代理式人工智能在完成任务时仍可能发生技术风险。

技术应用过程的安全问题是比技术性能的不确定性更严重的技术风险。过程性安全问题指代理式人工智能在应用过程中被滥用、误用，或被攻击，从而造成难以挽回的损失。代理式人工智能常见的过程性安全问题是因恶意而发生的错误使用和被攻击而导致的数据泄露。代理式人工智能可能被用于网络攻击、电子诈骗等恶意活动，比如被黑客利用，自动执行对目标系统的攻击。代理式人工智能也可能因安全漏洞被攻击，造成敏感数据泄露，如个人健康信息、财务信息和机构商业秘密的泄露，导致巨大损失。

技术风险在代理式人工智能的不同应用场景中会产生不同的危害。就技术性能而言，性能的不确定性在制造业中会导致代理式人工智能无法准确预测设备故障，因而使生产中断或设备损坏；在医疗领域中，性能缺陷会使代理式人工智能作出错误诊断，影响治疗效果。过程性安全问题在金融领域最为明显，可能会导致金融欺诈，比如恶意使用人利用代理式人工智能进行内幕交易或洗钱活动。

（二）伦理风险：固有问题的加剧与扩大

人工智能伦理风险主要包括隐私泄露、数据偏见、数字鸿沟和道德困境等问题。代理式人工智能虽然尚未产生新的伦理风险，但固有的伦理风险问题随着代理式人工智能的广泛应用，变得愈加严重。

代理式人工智能所掌握的用户隐私远超之前的人工智能。因为代理式人工智能必须拥有更加全面的用户数据信息，才能集成化地完成复杂任务。代理式人工智能在工作过程中对用户数据信息进行交叉比对，还会因此而挖掘出更多的隐私信息。代理式人工智能高度自动化和集成式地处理任务，导致数据使用情况愈发难以追踪，隐私滥用的风险由此扩大。

用于训练代理式人工智能的数据可能存在偏见，“众所周知，代理式人工智能系统可能会复制并加剧其可用的训练数据中的偏见。”偏见会使代理式人工智能的决策违背伦理要求，比如性别和种族歧视等，如果决策发生在人事领域的招聘或晋升中，则会直接损害个人的劳动权利。

代理式人工智能的使用门槛高于生成式人工智能，人们不仅要进行提示词训练，还需要在反馈互动中精准理解代理式人工智能的问题。也就是说，使用生成式人工智能主要是人工智能理解用户意图，而使用代理式人工智能需要用户在交互中理解人工智能对问题的解读情况及对任务进行拆解的目的。此外，代理式人工智能对软硬件的要求更高，本地化部署难度大，当前关于OpenClaw的各种代装业务就是明证。因此，数字鸿沟更容易在代理式人工智能的用户间形成，从而引发更多的社会不公问题。

在紧急情况下，代理式人工智能需要作出道德决策，此时就可能产生道德困境。最为人们熟知的困境是电车难题，当碰撞不可避免，自动驾驶系统要在保护乘客和保护行人之间进行选择。随着代理式人工智能的广泛应用，人们可能会倾向于使用代理式人工智能作出道德决策，智能型道德困境将更加普遍。

（三）法律风险：边界未厘定与责任悬置

代理式人工智能的法律风险主要体现在合规和归责两个方面。合规问题指代理式人工智能目前的研发、部署和应用还处于探索和完善阶段，存在许多法律模糊问题没有解决，特别是代理式人工智能的应用边界没有清晰厘定。归责问题指代理式人工智能所导致的损害结果应当如何划分和追责尚无明确答案，相较于以往的人工智能，代理式人工智能自主性和集成性的特点会使归责问题变得更加复杂。

当前，相关法律法规尚未对代理式人工智能及其应用作出详细规定。如果对照原有的关于人工智能的规定，代理式人工智能不可能完全合规。并且，现阶段的绝对合规要求可能会阻碍代理式人工智能的发展。典型的例子是，代理式人工智能对数据的处理规模更大、分析更深入、结构化程度更高，因而无法完全符合当下的数据安全法，而如果严格依据数据安全法对代理式人工智能进行合规管理的话，代理式人工智能的工作效果将大打折扣，甚至有部分工作将无法开展。归责问题是人工智能介入社会生活后的主要难点，对于代理式人工智能而言，归责首先就面临着责任方不易确定的难题。研发人员、制造商、经销商、服务提供商、使用者等人类主体和代理式人工智能究竟谁应该对损害结果负责？比如自动驾驶汽车发生事故后，如果驾驶员的指令和事故之间不具备因果关系，那么应当让自动驾驶系统承担责任吗？责任悬置问题将会在代理式人工智能的应用中频繁发生。

（四）社会风险：渗入现实产生多重危害

生成式人工智能在虚拟空间分析用户问题，提出建议，现实空间中的人类最终进行决策，展开行动。代理式人工智能则从虚拟空间渗透进现实空间，直接进行决策并执行行动以完成用户设定的目标，此所造成的社会风险具有极强的渗透性，与生成式人工智能不可同日而语。具体而言，代理式人工智能渗入现实社会后，可能产生经济损失、失业风险、服务脱位和环保危机等多重危害。

在经济决策、国际贸易和金融业务中大量应用代理式人工智能可能导致经济损失。经济政策制定者或执行者盲目或过度依赖代理式人工智能进行经济决策，可能因错误决策而使经济资源调配失衡，产生财政或财务危机。国际贸易已形成较为成熟的跨国合作规范，但代理式人工智能的跨国合作缺乏统一标准，代理式人工智能基于国内标准进行决策和任务执行可能造成国际贸易风险。代理式人工智能如果未能正确预测市场波动，就会在金融市场作出错误的交易决策，从而导致经济损失。

自动化必然引发行业变革，代理式的自动化更是会在极短时间里减少岗位需求，如制造业的生产线在代理式人工智能影响下会进一步减少对一线工人的需求。代理式人工智能走入各行各业后，社会保障机制很难跟上代理式人工智能的发展速度，失业风险便随之剧增。代理式人工智能促进了生产力的发展，但在客观上却“与人争利”，进一步加剧了人机关系在社会层面的紧张度。

代理式人工智能可以让用户完成自身知识和技能范围之外的工作，比如门槛极高的编程等。在此前提下，一些服务类机构对代理式人工智能的使用会导致服务脱位。因为这些机构用户不具备代理式人工智能的实际工作能力，当代理式人工智能发生故障或出现错误时，服务对象的问题便无法得到解决，提供服务的机构甚至会因此而不能正常运营，服务将完全脱位。

由于动态集成性，代理式人工智能对计算资源的消耗远高于以往的人工智能，大量计算资源的使用带来高能耗和高碳排放，使环境保护问题变得突出。同时，代理式人工智能对原有人工智能系统的替代，也会在更新过程中产生大量电子废物，从而造成环境污染。

三、应对代理式人工智能风险挑战的策略

为了应对代理式人工智能带来的各种风险，需要采取创新性措施，调整技术应用路径，构建全面追责体系，在促进代理式人工智能发展的前提下对其进行恰当的规制。“包括中国在内，美国、欧盟、英国、日本、韩国等多国监管机构、网络安全专家及国际组织接连发出警示，启动行动型AI安全治理与风险防控行动。”从国内看，针对OpenClaw的安全风险，2026年3月11日，工业和信息化部网络安全威胁和漏洞信息共享平台发布了《关于防范OpenClaw（“龙虾”）开源智能体安全风险的“六要六不要”建议》。本文在此基础上，提出以下应对OpenClaw类代理式人工智能的风险防控策略。

（一）实施技术规制，优化对齐税

技术性能风险和过程性安全风险主要出现在代理式人工智能的研发和部署环节，因此必须通过规制措施予以应对。在当前代理式人工智能的性能无法大幅提升的情况下，可采取以下规制措施防止性能风险发生：一是通过元学习和迁移学习技术，提高代理式人工智能适应环境和保持稳健性的能力；二是构建透明度保障机制，通过自动备份系统决策和对决策进行解释、制定系统决策逻辑和推理的审计日志、提高系统决策过程的公开性等措施保证代理式人工智能的透明度；三是强化实时监控，搭建Human-in-the-loop(HITL)和Human-on-the-loop(HOTL)框架，依靠人类及时干预代理式人工智能行为，如果出现不可预见或超出合理范围的行为，要第一时间停止代理式人工智能的工作。对于过程性安全风险，关键是加强安全风险管理。具体而言，一要建立技术风险管理系统，对代理式人工智能进行严格测试，确保其在外部环境中稳定运行；二要建立冗余和备份机制，确保发生故障时能快速恢复；三要制定安全协议，确保代理式人工智能在数据保护、访问控制和入侵防御等方面严格执行安全协议。

价值对齐是人工智能应用于社会的前提，对齐税(Alignment Tax)是为了价值对齐而需要牺牲的人工智能创造力、表达力、反应力等技术性能。技术性能风险的发生是因为性能不足，而价值对齐又会进一步削弱性能，所以，如果不能优化对齐税，技术风险不仅不会减少，反而还会增加。优化对齐税要做到以下两点。一方面，要从技术层面保证代理式人工智能对于目标的追求、任务的设定和拆解符合伦理要求。可以通过逆强化学习等技术，确保代理式人工智能的认知与人类价值观保持一致。另一方面，要在应用上加强人类控制。代理式人工智能虽然减少了人类干预，但人类对于代理式人工智能是否符合价值观的干预不可或缺，使用者的及时反馈能帮助代理式人工智能在保证性能的前提下改进自身不符合伦理价值的行为。

（二）设置防护栏，并强制推广

防护栏技术(Guardrails)对于防范伦理风险和社会风险具有重要价值。它是一系列安全防护措施，旨在保障人工智能的安全性和可靠性。防护栏可用于限制人工智能作出引发伦理问题的决策，还能应对人工智能透明度不够的问题，从而进一步避免偏见和不公平的发生。

防护栏在代理式人工智能中的作用主要通过规制其核心技术大语言模型以实现。大模型在接收指令后与其他技术构件相配合，将目标分解成任务，然后指导任务完成，并在过程中与用户沟通和反馈。防护栏一方面通过微调检测恶意输入，利用思维链(Chain of Thought, CoT)优化输出，提高分类准确性，减少大模型对上下文的依赖；另一方面针对越狱提示(Jailbreak Prompts),识别累积性的有害意图。

在代理式人工智能的部署和应用中，要强制推广防护栏。服务提供者应定期测试防护栏应对各类攻击，特别是应对新型攻击的鲁棒性，在动态更新中提高防护栏的防护效果。当前应对隐私泄露和安全威胁的方法主要是差分隐私(differential privacy)和多方安全计算(secure multi – party computation),但这两种方法均缺乏综合性和系统性，防护栏能够有效弥补二者缺陷。首先，防护栏将伦理准则和负责任使用相结合，及时发现系统漏洞，在代理式人工智能的各种应用场景中均能发挥防护效果。比如在金融领域自动过滤投资建议类敏感话题，在医疗领域阻断非专业诊断对话，在教育领域排除暴力内容和错误价值观。其次，防护栏为受到代理式人工智能影响的从业人员提供了新的就业空间，即人们可以通过设置、维护和控制防护栏以获得代理式人工智能大规模应用背景下的工作岗位。最后，防护栏具有环保价值。除了集中防范大模型受到不当引导和攻击外，防护栏还可以对代理式人工智能设置能效优化要求，防止代理式人工智能选择高能耗和高污染的行动去完成任务。并且，人们还能将电子废物管理作为防护栏的扩展功能。比如在电子废物产生后，防护栏能够及时发出预警，确保电子废物被妥善处理和回收利用。

（三）以应用为主线，完善追责

构建更完善的法律追责机制能够有效防范代理式人工智能的法律风险。无论是合规性管理，还是归责，都要以追责为终点，但不能仅将追责视为结果，否则其教育和预防功能就无法体现。追责必须与代理式人工智能的应用过程相结合，以应用为主线，才能使追责从结果导向走向过程导向。

首先，将应用的合规性和责任界定相结合。代理式人工智能涉及的责任主体更加多元，仅仅对代理式人工智能及其应用行为进行合规性检查，虽然能够在表面上使其符合法律和监管要求，但不能对责任主体形成震慑力，因此要对责任类型、责任大小、责任性质进行明确界定，确保损害发生后能够迅速启动追责。其次，为代理式人工智能的应用行为建立保险赔偿机制。由于代理式人工智能造成损害的方式和结果难以预测，故而保险赔偿是最管用和最适当的经济赔偿方式。再次，将替代方案的应用作为追责体系的一部分。过度依赖代理式人工智能会造成不可控的后果，因此在部署代理式人工智能时应当同步确立替代方案，当代理式人工智能系统失效或发生风险时，用户是否选择替代方案和服务提供者是否设置替代方案将成为追责主体的重点考虑内容。最后，将对严格义务的遵守作为脱责的前提。欧盟《通用数据保护条例》(GDPR)对数据保护和用户同意施加了严格义务。对于服务提供者和使用者而言，虽然在应用时难以应对代理式人工智能的不确定性，但遵守严格义务却能够为自己免除或减轻责任提供理由。此外，监管部门应当要求服务提供者为代理式人工智能集成风险管理系统，对其应用于健康、金融和安全等敏感领域的活动进行风险评估、定期审计。在法律追责时，可以适当考虑相关责任方是否执行了该要求。

法律追责并不意味着仅仅以法律规定本身为依据。面对代理式人工智能这一新生事物，法律规定尚未同步跟进，因此行业标准和最佳应用要求也是追责的重要依据。在相关法律法规中承认这些标准和要求，可以最大限度弥补法律规定的滞后性缺陷。

初审/责编：陈燕

复审/执编：刘萍萍

审核/终审：王明东

文章刊于《云南民族大学学报（哲学社会科学版）》2026年第3期。篇幅限制，注释从略。若需引用，请查阅原文。

往刊浏览：

1. 2026年第2期（总第225期）全文链接

2. 2026年第1期（总第224期）全文链接

3. 2025年1-6期（总第218-223期）总目全文链接

4. 2024年1-6期（总第212-217期）总目全文链接

5. 2023年1-6期（总第206-211期）总目全文链接

6. 2022年3-6期（总第202-205期）总目全文链接