
目 录
一、首份AI Agent专项政策落地
二、五项Agent实质性合规要求
三、对Agent提供者的合规启示
四、结语
01
首份AI Agent专项政策落地
2026年5月8日,国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用于创新发展实施意见》(以下简称《意见》)。《意见》首句明确定义“智能体是具备自主感知、记忆、决策、交互与执行能力的智能系统。”该定义直指AI Agent这一爆发式增长的新型AI业态。
《意见》是我国第一份将AI Agent作为独立治理对象的专项政策文件,38个条文覆盖技术底座、安全治理、应用场景、创新生态四个维度,而强制性监管信号主要集中在第三章“守牢安全底线”下。本文即围绕第三章展开,识别其中对于Agent提供者具有实质合规意义的条款,初步勾勒正在形成中的AI Agent监管框架。
第三章共10条(第5-14条),分为四节。第一节“明确产品准则”(第5-7条)对Agent产品本身的决策与行为机制提出要求;第二节“防范安全风险”(第8-10条)是针对所有Agent的通用安全要求;第三节“完善治理体系”(第11-12条)着眼于Agent监管的宏观制度安排。第四节“强化行业自律”(第13-14条)则是引导性规定。具体来看,第一节的第5、6、7条、第二节的第10条和第三节的第11条属于Agent的实质性合规要求,以下进行逐条解读。
在进入具体条文解读之前,《意见》释放的将Agent定性为“产品”的信号值得特别关注——第三章第一节标题即为“明确产品准则”。这与先前生成式人工智能被定位为“服务”形成鲜明对比,也预示着完全不同的法律后果。Agent的产品定位提示从业者未来可能需要预防适用《产品质量法》相关规则额外风险,且一旦被法律定性为产品,提供者将面临更为严格的归责原则(如无过错责任倾向和举证责任倒置),这意味着现有的Agent合规预案可能需要以产品定位为基点进行重新审视和组织。
02
五项Agent实质性合规要求
(一) 第5条:从内容治理到行为治理
《意见》第5条要求完善Agent相关政策法规及伦理规范,并对Agent的具体合规方向作出指示,即“确保智能体行为符合法律法规及主流价值观。防止智能体利用数据优势、人格化技术实施传播不良价值观、算法压榨等行为,防范未成年人、老年人沉迷成瘾、情感依赖等风险”,并要求做好与人工智能伦理审查等制度衔接。
其中,“符合主流价值观”的要求延续了《生成式人工智能服务管理暂行办法》第4条对内容合规的规定,已有监管经验;“做好与人工智能伦理审查等制度衔接”则指向《生成式人工智能科技伦理审查办法(试行)》,该办法对Agent的合规影响可参见笔者另撰《AI Agent合规重心前移:〈生成式人工智能科技伦理审查办法(试行)〉释放的监管信号》一文。
本条最核心的突破在于将AI的监管重心从内容拓展至行为。此前的生成式AI、深度合成等专项法规的监管对象均为AI生成的内容,而本条监管的对象是Agent的行为。这一拓展由Agent具有执行能力的技术本质所决定——Agent不只生成文本,还调用工具、操作系统、执行对外动作。《意见》的明确表述意味着,我国对于AI的监管已从从静态内容治理迈入动态行为治理的新时代。
具体而言,本条特别将两类行为纳入监管视野:一是利用数据优势的行为:Agent凭借记忆机制持续累积用户行为模式与偏好信息,而用户却对Agent的内部运作几乎一无所知,由此形成显著的信息不对称;二是利用人格化技术的行为:Agent通过拟人化语言风格、情感化反馈、主体性表述等方式,使用户对Agent产生“具有人格”的认知错觉。
这两类技术本身是Agent的基本运作机制,本条所关注的是其被用于“传播不良价值观”或实施“算法压榨”等操纵行为。其中,“算法压榨”一词原属平台经济反垄断领域,指算法对劳动者(如外卖骑手、网约车司机)的经济剥削。本条将这一概念移植到Agent监管中,所指被压榨的对象是Agent用户,压榨的性质除了经济剥削外还有心理和行为层面的操纵。这一概念位移表明Agent和用户关系可能被视为具有潜在的支配特征,而支配关系在法律上的核心后果是弱势方的同意可能被视为非充分自愿,例如骑手同意平台派单规则并不构成平台充分的合意抗辩。这意味着在具有潜在支配特征的Agent与用户互动中,传统知情同意做法的有效性可能面临更为严格的审查,Agent提供者不宜仅依赖用户协议作为单一的合规防线,建议探索建立产品机制层面的主动保护措施。
(二) 第6条-用户最终决策权不得超越
第6条对于Agent决策和行为边界的核心问题作出了正面回答:“厘清仅限用户本⼈决策、需由用户授权决策和智能体自主决策等各种决策方式的合理边界及所需权限。确保用户对智能体自主决策享有知情权和最终决策权,智能体执行操作不得超出用户授权范围。”
具体来看,本条将Agent决策对象分为三类:仅限于用户本人决策的事项、用户授权后Agent可以决策的事项、Agent可以自主决策的事项。三类决策方式对应不同的权限范围与合规边界。在此基础上,本条划定了底线——确保用户对决策过程有知情权和最终决策权,Agent执行行为不能超出授权范围。这一规定的法律渊源是《个人信息保护法》第二十四条对自动化决策的规制,但除了手段和过程要求外,还对管控结果提出了要求,在《个人信息保护法》第二十四条的基础上进一步提升了合规标准。
本条对Agent产品架构的影响是较为深刻的。Agent的核心商业价值在于减少用户决策和执行负担,但本条要求保留用户的最终决策权,“减少介入”与“用户控制”之间的张力将成为Agent产品形态设计的根本约束。对应的合规实现机制包括:可靠的身份认证、Agent决策与执行过程的可视化展示、关键动作的人为控制与干预点设计等。这些合规要点笔者已在《AI Agent合规重心前移:〈生成式人工智能科技伦理审查办法(试行)〉释放的监管信号》中作过分析,本文不再展开。需要强调的是,这些机制在科技伦理审查办法语境下属于审查要素之一,而在本条规制导向下,相关要求的约束力正由伦理倡导向实质性的合规义务演进。
(三) 第7条-事前限制与事后追溯的双重管控
《意见》第7条提出了对Agent行为采取事前限制+事后追溯的全程管控,前半段要求通过规则内嵌和行为围栏等技术,在Agent决策和行为作出前进行预防性约束;后半段则要求建立重要应用场景下Agent行为的可验证和追溯机制。
前段中提及的规则内嵌和行为围栏分别对应Agent决策和执行两个环节。规则内嵌是指将法律要求、伦理规范内置于Agent决策逻辑中、使Agent在生成行为方案时即受规则约束。行为围栏是指在Agent的行为执行环节设置护栏,即便大模型生成了违法的执行方案,围栏机制也能有效降低Agent执行违法方案的风险。
事前行为管控主要针对的是Agent在公共场所、隐私场所、专门场所等场景下的行为,要求“确保”合法合规。但从技术实践来看,Agent现有的上下文感知技术主要面向用户行为状态、而非精细化的场所属性;将伦理规范等抽象规则内嵌到Agent决策逻辑中目前也没有较为标准化的工业实现,由此可以看出《意见》具有相当的前瞻性。“确保”二字表明不仅监管机构期待的Agent在重点场景下合规标准显著高于目前行业平均能力,也意味着事前行为管控能力并非可选项,未来可能成为Agent通过审查或备案的必备条件,率先完成建设的Agent提供者将明显具有先发优势。
后半段对重要应用场景中Agent行为提出可验证+可追溯的要求。结合《意见》第3条中所提及的“支持医疗、交通、媒体、公共安全等领域制定强制性标准”,“重要应用场景”可预见至少会包括医疗、交通、媒体、金融等高影响高责任领域。后半段还提及“探索利用区块链等技术”,表明完整、规范、不可篡改的Agent决策和执行日志或将成为重要应用场景下的基础合规要素,
(四) 第10条-防止被用于违法犯罪
第10条要求“完善智能体常态化风险识别、预警及干预机制,强化人机协同审核、拦截阻断等风险处置能⼒,防范系统性安全风险。强化智能体应用安全管理,避免智能体被用于⾃动化攻击、隐私侵犯、虚假信息生成传播、网络诈骗等违法犯罪⾏为。”
本条的关键在于其隐含的责任结构——“避免智能体被用于”的主语指向Agent提供者,这意味着Agent提供者除了具有负有不得开发帮助犯罪Agent的消极义务外,对通用性Agent可能负有规避违法利用的积极义务。这一积极义务在Agent场景下是严峻的,因为Agent的通用能力意味着提供者无法穷尽预判所有滥用场景,积极义务的履行标准成为关键问题。《意见》对此没有给出明确回答,但如果我们将第10条与第6条、第11条联系起来看就可以辨识出三个共同界定这一边界的变量:
第一是场景风险等级。第11条的分类分级意味着提供者的注意义务是随应用场景波动的——医疗、金融、公共安全场景下的义务水平,与生活娱乐、日常办公场景下的义务水平不在同一量级。
第二是人的介入程度。第10条的措辞是“人机协同审核”,要求人的介入,结合第6条对用户决策权的保障要求,共同逻辑是:人为介入节点本身可能成为提供者责任的边界标记——有人介入的环节,责任分配给介入的人;无人介入的环节,责任归于Agent提供者。
第三是事后响应能力。对于无法事前拦截的滥用场景第10条要求的“常态化风险识别、预警及干预”实质上是在考察Agent提供者有无监测、发现、干预的体系。能否做到事前阻止是能力问题,有无建立事后响应机制则是态度问题,监管中更为关注的往往是后者。
以上三个变量叠加,Agent提供者的责任边界大致可循:场景风险越高,人工介入越密,事后响应越快,积极义务标准就越容易被认定为已履行。反之,若一个高风险场景的Agent既无人工审核节点,也无异常监测机制,则很难抗辩已尽到积极义务。可见,对Agent提供者而言,建立与场景风险相称的分级管控体系并持续运行,将成为提供者主张已尽到合理注意义务的重要抗辩基础。
(五) 第11条-箭在弦上的Agent备案
第11条明确了分类分类分级的治理路径“对于敏感领域及重点行业,由网信部门联合行业主管部门确定开放场景,根据相关法律法规、监管要求和安全防护标准,实行备案、检测、问题产品召回等管理措施。对于部分生活娱乐、日常办公等低风险领域,完善智能体评估测试工具,通过合规自测、信息报告、分发平台管理、行业自律等实现高效治理。”这延续了《生成式人工智能服务暂行规定》第四条的分类分级思路,也与欧盟AI ACT的监管逻辑一致。
“对于敏感领域及重点行业,由网信部门联合行业主管部门确定开放场景”说明敏感领域的Agent部署采取的是白名单制度,这与大模型备案的逻辑是存在显著差异的——大模型备案的对象是模型本身、通过备案后部署场景相对灵活,而Agent备案很可能是场景绑定的,进入敏感领域和重点行业的Agent备案或将演变为实质性的准入门槛。可见未来因为进入垂类敏感领域和行业的节奏将可能取决于备案的进度,因此Agent从业者需要在时间安排中预留这一不确定性。
本条还将“问题产品召回”这一产品质量责任概念移植到Agent身上。作为持续运行的软件产品,Agent提供者或可参照智能网联汽车等领域的软件OTA召回实践,提前设计针对问题产品包括强制推送更新、限制部分功能或远程停用等方式在内的全流程响应与热更新修复机制。但如果Agent在被召回前已经执行了不可逆的操作后果如何追溯和补救?召回后用户数据如何处理?这些问题在尚无答案,有待垂类Agent提供者对召回能力和机制的探索。
对于低风险领域,虽无备案要求,但本条也要求通过合规自测、信息报告、分发平台管理与行业自律等方式进行约束。其中“分发平台管理”意味着Agent应用商店或分发市场未来或将在行业合规中扮演守门人角色,类似于移动应用商店承担的审核职能,Agent分发平台未来可能被要求建立准入审核和持续监测机制。
03
对Agent提供者的合规启示
随着《意见》的正式出台,针对智能体的监管框架已初具雏形。为协助Agent提供者有效识别合规边界,本文将现阶段的监管要求归纳为“基础合规措施”与“特定场景叠加要求”两个维度,并重点探讨在“产品化”监管导向下,Agent提供者可考虑提前布局的风险预防机制。
(一) 基础合规措施
1.反不良操纵机制
根据《意见》第5条,Agent提供者需建立确保Agent行为符合法律法规与主流价值观的保障机制。
在Agent的决策环节,应当将合规规则前置内嵌于Agent的决策逻辑中。这一方向虽无成熟的工业实践,但已有探索,例如Pure Storage团队Kholkar和Ahuja于NeurIPS 2025可监管机器学习研讨会发表的“Policy-as-Prompt"”研究[注1]中主张将合规政策编译为运行时的硬性分类器,在Agent的输入输出边界上进行强制把关。借鉴这一思路,可以考虑如下实现路径:第一,对用户指令进行意图识别,将抽象的用户意图解析为可分类的Agent行动目标;第二,建立机器可读的合规规则库,对识别后的意图进行风险检索;第三,根据风险检索结果分流处理——无风险意图直接进入执行流程,潜在违规意图则被拒绝执行或在向大模型发送的上下文中以硬性约束形式注入合规要求。
在Agent的行为执行环节,行为围栏或成为必要项,目前已多有Agent采用预执行护栏(pre-execution guardrails)、过程中护栏(in-process guardrails)和后处理护栏(post-processing guardrails)等多阶段防护实践,不乏成熟经验。
第五条还明确提到对未成年人及老年人的防沉迷和情感依赖保护,可见实名认证未来很可能成为Agent的必备项。除了年龄识别强制要求外,特定时段的使用限制、累积使用时长披露、监护人控制等可能也逐步成为陪伴型C端Agent的基础合规门槛。
2.用户决策权保障
未来Agent可能面临如下强制性要求以保护用户决策权:
第一,高风险操作的二次确认机制,即涉及财产处置等具有显著外部效果的操作,可能被要求经过用户显性确认后方可执行。
第二,授权范围的显性化披露义务,为降低后续争议风险,建议Agent的能力边界与授权范围须在用户启用前以清晰、可识别的方式告知,避免仅隐藏于冗长的用户协议之中。
第三,操作日志体系是用户决策权保障的技术基础,此处的日志应覆盖Agent的关键决策节点、外部工具调用、对外信息发送等具有显著外部效果的行为,并具备完整性、时间戳可信性、关键字段不可缺失性等基础属性,以支持事后核查授权边界的遵守情况。
3.防范违法用途
从《意见》第10条来看,Agent提供者负有防止Agent被用于违法犯罪的义务。如前所述,该义务可能无法仅通过被动响应投诉来免责,构建常态化的主动滥用监测机制将成为重要的履职体现。可考虑的合规措施包括:异常行为检测机制、高风险功能的用户身份核验、配合监管和司法机关调查的标准化流程、违法行为发生后的应急处置预案制度等。
4.常态化安全自测
根据《意见》第11条,低风险场景Agent也要通过合规自测、信息报告、分发平台管理与行业自律等方式接受约束。因此,建议Agent提供者着手建立内部评估测试机制,对Agent的性能、安全、合规等维度进行常态化自测,并形成自测报告。
(二) 特定场景下的叠加备案义务
如前所述,面向敏感领域及重点行业的垂类Agent已经需要开始为Agent备案启动准备,在备案制度尚未靴子落地前,可以参照大模型备案的实践经验,着手准备安全测试报告、能力边界说明、训练数据合规性证明、应急处置预案、个人信息处理规则等材料,以尽量缩短备案耗时。
(三) 产品定位下的额外合规准备
从《意见》来看,未来Agent的定位大概率将以“产品”而非“服务”作为基点。产品责任要求是产品提供者对产品缺陷负责,但Agent的运行机制天然存在缺陷归因模糊的难点,因为致损结果往往是来自于多轮交互和工具调用中逐步产生的上下文污染或权限漂移。因此,Agent从业者尤其需要考虑的是在由模型底座、Agent提供者、插件工具开发者、集成厂商共同构成的Agent供应链上,产品缺陷归因如何明确。
针对这一实务难点,Agent供应链上的各参与方可考虑建立如下机制。
第一,建立供应链边界的可追溯证据链,例如在供应链协议中强制约定边界日志留存义务:在底座模型、外部插件API与Agent中控引擎的每一个交互边界点,留存带时间戳的输入输出数据记录,并约定保存期限和协查响应时限。当致损事件发生时,通过调取各边界接口的日志,即可初步判定缺陷源头,为定责提供基础性的举证支持。
第二,在供应链合作协议中为无法归因于单一环节的叠加效应致损预设兜底分摊方案,例如按各方合同金额占比或约定固定比例分担等,关键是合同不能对此沉默,否则在产品责任框架下Agent终端提供者几乎必然独自承压。
04
结 语
《意见》的发布标志着我国AI监管正式迈入Agent动态治理的阶段——监管对象从模型生成的静态内容扩展到Agent的动态行为,从单一节点的内容审核延伸到全生命周期的行为合规。本文识别的五条核心要求,仅是这一治理范式落地的第一组合规坐标;随着分类分级治理框架的细化、敏感领域备案制度的成型、行为可追溯机制的探索,Agent监管的合规图景将持续清晰。对Agent提供者而言,与其等待具体细则落地后再被动调整,不如以本次《意见》释放的监管信号为锚点,提前完成合规架构的体系化建设,这不仅是对监管要求的响应,也是Agent产品在未来监管环境下保持竞争力的基础。
注释及参考文献
[1] 参见Gauri Kholkar、Ratinder Ahuja:"Policy-as-Prompt: Turning AI Governance Rules into Guardrails for AI Agents",arXiv编号2509.23994,2025年11月7日修订版,已被NeurIPS 2025可监管机器学习研讨会接收,论文链接:https://arxiv.org/abs/2509.23994。
作者简介

吴俊伶
国浩深圳律师
业务领域:争议解决、数据合规、知识产权
邮箱:wujunling@grandall.com.cn
鸣谢
感谢国浩深圳合伙人史跃、王城宾对本文的审阅与指导建议。
相关阅读
【 特别声明:本篇文章所阐述和说明的观点仅代表作者本人意见,仅供参考和交流,不代表本所或其律师出具的任何形式之法律意见或建议。】

夜雨聆风