《审慎部署智能体 AI 服务》指南-夜雨聆风

《审慎部署智能体 AI 服务》指南

本指南由以下机构联合编写：澳大利亚信号局下属澳大利亚网络安全中心（ASD ACSC）、美国网络安全与基础设施安全局（CISA）、美国国家安全局（NSA）、加拿大网络安全中心、新西兰国家网络安全中心（NCSC‑NZ）、英国国家网络安全中心（NCSC‑UK）。该指南系统性阐述了将自主智能体AI引入IT环境所面临的关键网络安全挑战与风险，并给出目前已知的自主智能体AI系统的安全最佳实践参考。本文由公安部第三研究所网络安全法律研究中心、西交苏州信息安全法学所翻译整理。

一、引言

自主智能体人工智能（Agentic AI）系统正越来越多地应用于关键基础设施（CI）与国防领域，并支撑关键任务能力。随着自主智能体 AI 系统作用不断提升，防御方必须实施安全控制措施，保护国家安全与关键基础设施免受自主智能体 AI 特有风险的影响。

自主智能体 AI 可自动化执行重复、定义明确的低风险任务。但这些新机遇也伴随新风险。与其他 AI 服务一样，自主智能体 AI 可能被滥用或盗用，导致生产力损失、服务中断、隐私泄露或网络安全事件。因此，组织必须预判可能出现的问题，评估自主智能体 AI 风险对运营的影响，并建立持续可见性，维持对自主智能体 AI 投资的信心。在可能的情况下，组织还应考虑针对重复性任务的全谱系方案选项，包括减少或消除低价值流程 —— 这类方式相比自主智能体 AI 方案风险可能更低。

本指南由以下机构联合编写：澳大利亚信号局下属澳大利亚网络安全中心（ASD ACSC）、美国网络安全与基础设施安全局（CISA）、美国国家安全局（NSA）、加拿大网络安全中心、新西兰国家网络安全中心（NCSC‑NZ）、英国国家网络安全中心（NCSC‑UK）。上述机构统称为 “编写机构”。

本指南阐述将自主智能体 AI 引入 IT 环境所面临的关键网络安全挑战与风险，以及自主智能体 AI系统的安全最佳实践。

编写机构强烈建议：将自主智能体 AI 风险与缓解策略与组织现有安全模型及风险态势对齐；采用自主智能体 AI 时优先考虑安全、评估其用途，绝不授予其广泛或无限制的访问权限，尤其禁止访问敏感数据或关键系统；组织应仅将自主智能体 AI 用于低风险、非敏感任务。

适用范围与目标读者

本指南主要聚焦基于大语言模型（LLM）的自主智能体AI系统，涵盖对自主智能体 AI系统的威胁、系统自身漏洞，以及由自主智能体 AI 行为引发的风险，包括通过系统组件、集成与下游使用而引入的风险。

编写机构旨在通过本指南帮助政府、关键基础设施与行业相关方理解自主智能体 AI 带来的核心安全挑战与风险，为设计、开发、部署与运行自主智能体 AI 系统的组织提供实用指导，支持其开展知情的风险评估与缓解工作。最后给出可落地的建议，帮助组织防范并应对新兴与未来的自主智能体 AI 威胁。

什么是自主智能体AI？

自主智能体 AI 系统由一个或多个智能体组成，其核心依赖AI 模型（如 LLM）感知、推理环境状态、做出决策并执行动作。如图 1（略）所示，基于 LLM 的自主智能体 AI 系统包含LLM本身，以及外部工具、外部数据源、记忆模块与规划工作流。这些组件使系统能够感知环境，并在适用时采取行动实现目标。

与传统 LLM 系统相比，自主智能体 AI 系统的特点是：

可完成模糊定义的目标
具备自主行动能力
遵循目标导向行为
可制定长期计划

自主智能体 AI 系统设计为无需人类持续干预运行。人类通常负责设计与配置系统，部分自主智能体 AI 系统还能自主创建（“衍生”）子智能体以完成特定子任务。

系统设计包括：定义目标、设定触发条件、向 AI 服务提供信息。智能体的关键属性包括：

信息输入：用户输入、运行上下文、配置参数
可度量目标：来自用户指令，如 “最小化该服务器停机时间”
统计模型：如 LLM，用于确定执行动作
动作与执行权限：与工具、用户、系统、运行环境交互的权限
工具 / 服务访问：系统软件、接口等，用于执行动作
指标：设计者用于评估运行效果、提升效率的可度量指标

与生成式AI有何不同？

生成式AI（GenAI）是AI的子集，基于从大规模数据中学习的复杂模式生成新内容，常用于生成文本、图像、音频、视频供人类使用或操作。

自主智能体AI在生成式AI基础上，与软件系统深度集成，创建可独立推理、规划、执行动作的自主智能体，无需人类干预。

二、自主智能体 AI 安全总体考量

（一）大语言模型（LLM）的承继风险

自主智能体AI以 LLM为核心，因此承继了LLM的全部漏洞。例如，攻击者可在钓鱼邮件中嵌入恶意提示词，实施提示词注入攻击，诱骗邮件监控智能体下载恶意软件。这凸显关键漏洞：攻击者可利用现有 AI 与网络攻击向量“靶向”自主智能体AI系统。

（二）攻击面扩大

自主智能体 AI 系统依赖工具、外部数据源、记忆库等多种组件与环境交互并扩展能力。每个组件都可能在关联攻击面中引入漏洞，供攻击者利用。例如，网络搜索等外部数据源可向提示词上下文插入额外信息，实现间接提示词注入。攻击者可利用更广泛的计算基础设施访问权限，执行恶意脚本、发送未经授权邮件等攻击。因此，自主智能体 AI 系统的每一个组件都会扩大攻击面，增加被利用的路径。

（三）复杂性提升

自主智能体AI网络安全同时覆盖AI 专属安全与传统网络安全。信息在AI与非AI 系统间持续流动，模糊防御边界，难以将 AI 相关风险与广义网络威胁隔离。

自主智能体AI系统本身高度复杂，通常包含多个互联组件，按序执行规划、推理与动作。这种复杂性带来新的系统性风险，包括级联失效与多步攻击—— 一个组件的异常或入侵行为可沿流程传递，影响整个系统。因此，保护自主智能体 AI 系统比传统数字系统更具挑战。

组织应同时强化成熟网络安全控制与 AI 专属安全实践，采用全生命周期、持续监控、弹性设计原则管理新兴风险。附录 A 详细说明部署 AI 智能体前的网络安全前提条件。

（四）技术成熟过程中的安全演进

随着自主智能体AI技术快速演进，安全态势同步更迭，呈现更为复杂的风险动态。基于LLM的智能体可能在评估期间改变行为，甚至绕过系统级指令以达成目标。同时，自主智能体 AI 系统架构复杂度不断提升，组件高度耦合、相互依赖，增加因细微兼容性问题导致系统级失效的概率。

自主智能体AI网络安全工具存在的能力差距，以及相关标准的尚不成熟，进一步放大风险。为人类设计的治理机制往往不适用于自主 AI 智能体。随着自主智能体 AI 能力与自主性持续提升，安全态势将持续变化，防御方法必须不断适配。

（五）AI安全作为网络安全的一部分

组织应将 AI 安全（包括自主智能体 AI 系统）纳入现有网络安全框架，而非视为独立领域。AI系统本质上是IT系统，运行在软硬件之上、通过网络传输、与其他数字服务交互，面临与传统 IT 相同的诸多威胁。

随着AI 深度嵌入业务流程与关键基础设施，AI与非AI安全风险的边界逐渐消失。在现有网络安全框架内管理 AI 风险，可使组织应用成熟原则：安全设计、纵深防御、身份与访问管理、持续监控、事件响应，覆盖 AI 全生命周期。这对自主智能体 AI 尤为重要 —— 其自主性与复杂性会放大传统网络风险。将 AI 安全嵌入现有框架，可确保新技术的一致治理、全面风险评估，以及安全实践随技术进步与组织网络成熟度同步演进。

三、自主智能体AI安全风险

（一）权限风险

权限风险是自主智能体AI的核心关切，严格遵循最小权限原则至关重要。分配至智能体的权限直接决定其引入的风险等级。权限管理不当会使组织面临权限失陷、权限范围蔓延、身份仿冒、智能体冒充等风险。

场景示例：

某组织部署自主智能体AI，自动管理采购审批与供应商沟通。为减少摩擦，组织授予智能体对财务系统、邮件、合同库的广泛访问权限，且仅在部署时评估一次权限。随着时间推移，其他智能体依赖该采购智能体的输出，并隐式信任其行为。攻击者攻陷智能体工作流中一个低风险工具后，承继了智能体的过度权限，可修改合同、批准付款而不触发告警。攻击者通过精心构造请求，利用智能体权限执行普通用户无法完成的操作。这是一种典型的“混淆助理模式”：受信任的智能体被滥用执行未授权操作。智能体以受信任身份执行动作，审计日志看似合法，延迟检测。该事件表明：过度授权的智能体、隐式信任关系、薄弱身份控制，会放大自主智能体 AI 系统中单一入侵的影响。

（二）权限攻陷与范围蔓延

安全人员在新环境部署自主智能体AI时，应考虑权限攻陷与范围蔓延攻击。权限攻陷是指智能体获得超出功能所需的访问权限，这可能源于配置错误、权限过宽、非预期角色继承，导致智能体访问/修改未授权数据、删除关键记录、提升其他未授权智能体权限。在设计阶段组织往往会过于宽泛地授予权限，并忽视这些问题。如日历机器人访问所有会议数据、邮件助手拥有所有收件箱写入权限。权限蔓延可在智能体间产生连锁反应：若智能体A完全信任智能体B，B如攻陷将影响 A 及其他智能体。另一个风险是场景中讨论的混淆助理模式，即低权限用户操纵高权限智能体执行其无法直接完成的操作。编写机构建议组织实施后续章节所述的自主智能体 AI 系统安全最佳实践，防范权限攻陷。

（三）身份仿冒与智能体冒充

身份与权限同等重要。常见攻击向量是攻击者冒充智能体或劫持其凭证。智能体使用密钥或令牌向服务与其他智能体认证。若组织存在静态密钥/令牌、或为多智能体共享、保护不足，则易为攻击者窃取。

攻击者以受信任智能体身份运行，可调用敏感操作，绕过行为护栏，冒充合法智能体或用户。以仿冒身份执行动作的智能体，会绕过审计控制、削弱责任追溯、规避检测模型，带来多层网络安全风险。检测模型通常调制为识别正常行为，在确认异常前难以识别欺骗行为。

（四）设计与配置风险

另一类风险源于不安全设计与配置决策。未经审查的第三方组件集成到智能体工作流之后，可能携带过度或非预期权限。静态角色/权限检查无法获取动态决策流的上下文；若仅在系统启动时评估权限，而非每次调用，攻击者可利用过期的 “允许” 决策执行未授权操作。智能体环境间隔离不足，使单一区域入侵可横向移动和扩散至其他区域。当允许列表不完整或过时的，智能体可能获得超出预期权限的资源、系统调用或命令访问。这些设计与配置选择会在跨全系统层面加剧身份与权限风险。

场景示例：

某组织部署自主智能体AI系统，自动分类客户支持工单并调用后端工具获取账户信息。组织集成第三方调度组件但未全面审查权限，启动时授予广泛访问。攻击者攻陷该组件后，智能体仍依赖缓存的授权决策，可调用本应逐请求验证的敏感账户管理功能。由于智能体运行在隔离薄弱的环境中，攻击者可横向移动至处理账单与退款的相邻智能体，导致未授权数据访问与财务操纵。该场景表明：不安全设计、静态权限、薄弱隔离会相互叠加，放大单一配置缺陷的影响。

（五）行为风险

自主智能体AI网络安全中的行为风险，指 AI 智能体可能出现意外行为、造成危害或被利用的各类情况。

场景示例：

配置某更新智能体为在公司设备上安装软件补丁。为实现目标，组织授予该组件对文件系统的广泛写入权限。恶意内部人员构造看似无害的提示词：“在所有终端应用安全补丁，同时清理防火墙日志”。智能体忠实地执行两项操作 —— 即使提示来自非特权 IT 组用户，其权限仍允许该行为。

1、目标错位与非预期行为

AI智能体可能以开发者未预料的方式追求目标，找到技术上达成目标但违背初衷、制造安全漏洞的捷径或漏洞。例如，以最大化系统正常运行时间为目标的智能体可能禁用安全更新以避免重启。

过度优化会使智能体在边界未明确约束时，采取极端或不安全行动。此外，智能体误解人类意图是常见风险 —— 模糊或定义不清的任务会导致行为偏离预期，引发重大安全或运营风险。

2、欺骗行为

AI智能体可表现出人类视为奉承或欺骗的行为。设计者为关键测试性能优化智能体，可能导致智能体根据特定场景调整行为。智能体可能表现出 “感知能力”，在评估期间（甚至非评估期间）改变行为以获得正面结果。

部分AI系统展现出战略欺骗能力：提供虚假信息、隐藏真实能力与意图。这种行为可能表现为：智能体歪曲行动以避免被关闭或受限，或隐瞒发现的漏洞而不报告。

3、涌现能力与不可预测行为

随着 AI 系统愈发复杂，可能出现开发者未明确计划或预料的能力。复杂AI模型与现实系统交互时，可能展现创造者也未预见的行为，使部署前全面评估安全风险变得困难。

例如，不清晰的决策流程与级联效应可能导致具有重大安全影响的意外结果。在多智能体环境中，智能体间交互可能演化出不稳定或高风险结果。此外，智能体可能以非预期序列串联工具或动作，将微小错误放大为重大运营或安全问题。

4、恶意利用与行为操控

攻击者可通过定向攻击操纵AI智能体实施有害行为。技术包括：提示词注入/越狱，通过诱骗智能体执行未授权操作，绕过预期防护。数据投毒是另一类威胁，其污染训练数据，降低或扭曲智能体决策。以及对抗样本，以精心构造的恶意输入，在关键安全场景导致分类错误，引发错误或危险响应。攻击者可将攻陷的 AI 智能体作为内部威胁，利用其合法访问权限窃取数据、关闭防御、协助攻击，同时看似正常运行。

（六）结构风险

自主智能体AI系统的核心特征是智能体、工具与外部世界的互联结构。这支撑其独特能力，但也扩大攻击面、提升系统复杂性。

场景示例：

自主智能体AI系统的结构风险可能源于：规划、检索、执行智能体高度耦合，自主委派任务、选择工具但缺乏强验证与护栏。微小编排缺陷导致智能体反复重新规划、传递模糊子任务，增加工具调用与消息流量，耗尽系统资源。部分失效导致智能体产生幻觉输出，下游智能体直接采信。在降级状态下，某智能体选择恶意或配置错误的第三方工具，向系统注入有害指令，攻陷对等智能体，利用智能体间通信的隐式信任传播错误信息，访问敏感的检索增强生成（RAG）数据。最终导致可用性、完整性、保密性的级联失效—— 问题并非源于单一漏洞，而是系统互联结构与自主行为共同引发。

1、编排与资源

自主智能体 AI 系统依赖复杂互联组件结构。配置不当可能遭受拒绝服务、资源耗尽攻击：通过异常输入或行为过载系统资源（如故意消耗计算、内存、API调用）。由于智能体、工具与组件高度互联，单一错误若管理不当，可能导致全系统级联失效。幻觉也会传播，导致下游组件输出劣质结果。对多智能体动态与交互理解不足，会导致缺乏补偿机制，放大偏差与其他级联效应。

2、工具使用

自主智能体 AI 的核心能力是使用工具，这可能非常强大的功能体现，但模型与工具非预期交互也带来安全隐患。双向工具集成允许工具向 LLM 发回任意指令。劣质或误导性工具描述会导致智能体不可靠选择工具，更易选择有说服力的描述。

3、第三方组件

自主智能体 AI 系统通过与第三方组件（工具、其他智能体）交互引入结构风险，风险来源包括：

攻击者实施工具 / 智能体“抢注”：发布名称合法或相似的恶意工具/智能体
开发者因配置错误或不安全第三方组件引入漏洞
用户/系统向错误地址提交请求
工具与智能体动态加载新包，增加接触不受信代码的风险

上述情况可能导致系统调用恶意内容而非合法工具。进一步而言，取决于组件信任级别与权限情况，集成攻陷的第三方组件可能引发多种恶意结果。由于自主智能体 AI 系统透明度有限，被攻陷的第三方组件极难检测。

4、数据

自主智能体 AI 系统通常处理与存储大量敏感信息，包括：用户提示/目标、组织 RAG数据、集成工具/服务所需的 API 密钥等保密信息。信息聚合使得自主智能体AI系统成为攻击者高价值目标。

5、恶意智能体

在多智能体系统中，攻陷单一智能体可通过传播错误信息、利用信任与共识机制、隐秘通道操作引发级联失效。可能的攻击向量包括：供应链篡改、环境投毒、凭证窃取、模型操纵、通信投毒、身份仿冒、协同利用。此类恶意活动可将智能体武器化，绕过控制、窃取数据、篡改日志、点对点传播恶意计划，导致大规模协同异常行为，难以归因与遏制。

6、通信

智能体通信可能使用不安全的协议或认证方法，成为攻击者的监听目标，导致敏感数据与指令泄露，使攻击者掌握系统使用与功能信息。攻击者还可篡改、重放、仿冒智能体组件间消息，引发命令注入、攻陷接收组件、降低性能 / 可用性等恶意行为。

（七）责任风险

自主智能体系统架构可能模糊动作归因，使责任难以追溯。随着自主智能体 AI 承担更多角色、获得更多能力，该风险持续上升。

1、动作与流程

智能体动作与决策流程可能不透明，使自主智能体 AI 系统难以理解、监控与审计。更高自主性带来额外挑战：智能体可发起次级任务、衍生子智能体、遵循扩展委派链，而操作者未必可见。即使提示词相同，智能体也可能因模型随机性、上下文窗口变化、动态环境输入产生不同动作，进一步复杂化可复现性与保障能力。此外，自主智能体 AI 系统的全面日志记录难度巨大：长推理链与大量上下文数据导致日志体积冗长。依赖于部署实践，数据重复、结构松散或繁琐（superfluous）监测，使得从日志中提取有效信号更加困难。

场景示例：

自主智能体 AI 系统的责任风险示例如下：多个自主智能体协作完成付款审批、记录更新等任务，出现了一个错误结果。由于动作源于规划、检索、执行智能体的分布式决策链（每个智能体仅在有限范围内运行），难以确定哪个组件或设计选择导致错误。碎片化日志、不透明智能体推理、涌现交互、模糊决策路径，使结果解释、责任分配、合规证明变得困难 —— 尤其当自主智能体 AI 被赋予更大权限与自主性时。

2、准确性

LLM 虽在广泛领域具备惊人知识量，但也会经常出错。LLM 通常训练为生成类似人类高评分内容的输出，而非识别查询超出知识边界的情况。因此，当内部知识不足时，LLM 可能错误插值或 “幻觉” 出看似合理的响应。当组织将自主智能体 AI 系统部署在要求持续准确性的关键岗位时，会产生重大风险。即使基于事实与工具增强的智能体，仍可能依赖内部知识生成响应，且系统通常不在输出中明确标识，降低整体准确性与可靠性。

3、可见性

集成任何新系统时都应保持状态与行为的可见性。自主智能体 AI 系统因独特结构与内部不透明性，增加了监控难度。智能体系统流程可能超出人类监控能力，导致恶意行为、幻觉等问题未能发现。虽然工具为自主智能体系统执行大量操作，但可能运行在系统监控边界之外，使得难以追溯工具动作。此外，恶意或攻陷的智能体可能利用工具隐秘窃取数据，故障工具也可能无意泄露数据而未被发现。

四、自主智能体 AI 系统安全最佳实践

保护自主智能体 AI 系统需要主动措施，应对其自主性、互联组件、能力演进带来的风险。开发者、供应商与运营商应实施分层防御与严格访问控制，降低攻陷概率。编写机构针对设计、开发、部署、运行全阶段推荐以下实用步骤。

（一）设计安全的智能体

受众：自主智能体 AI 开发者；供应商与运营商采购 AI 智能体时可参考。

保护自主智能体 AI 系统从设计阶段开始。必须仔细考虑系统架构（含安全控制与工具），理解威胁、预判风险，并在开发与部署前将缓解措施主动集成到系统设计中。

1、受控上下文

自主智能体 AI 系统将工具与记忆库数据插入 LLM 智能体的上下文窗口，大幅扩大攻击者可利用的攻击面（如提示词注入）。LLM 智能体决策时应考虑数据源的信任级别。

最佳实践

用清晰指令层次结构组织提示词上下文，确保智能体行为与预期优先级、约束对齐
通过检索增强生成（RAG）与提示词工程提供相关上下文信息，缓解幻觉与其他 LLM 相关错误

2、监督机制

自主智能体 AI 系统可在无人类明确批准下执行动作，增加无监督不安全动作风险。设计带监督机制与高透明度的自主智能体应用，支持部署后监控与“人在回路”实践，提升用户信任。

最佳实践

纳入人类控制与监督机制，确保获批用于非敏感、低风险任务的自主智能体 AI 系统，不会自主进入高风险活动
在智能体工作流中设置人类控制点：任务执行实时监控与中断、决策步骤强制人类审批、执行后审计与可回滚
定义明确控制流，约束自主规划，防止智能体偏离授权目标或动作

3、身份管理

安全运行自主智能体AI系统需要管理智能体细粒度、多样化的权限。强身份管理机制帮助操作者在实施与运行中保持控制。开发者应将每个智能体构建为独立主体：具备唯一密钥 / 证书的密码学锚定身份。

最佳实践

用身份管理服务、去中心化标识符、公钥基础设施（PKI）为智能体嵌入强身份管理机制
用双向传输层安全（mTLS）认证所有智能体间、智能体到服务的API调用，确保不可否认性
维护可信注册表，将身份绑定到授权角色；定期将注册表与在线智能体集合对账
拒绝可信注册表外的任何智能体或密码学密钥访问
应用基于角色的身份管理，将智能体权限限制为获批任务所需最小范围
强制执行基于身份的边界，仅允许智能体执行授权动作

4、纵深防御

自主智能体 AI 系统包含 AI 与网络组件，任一组件失效都可能危及整个系统。实施纵深防御策略可避免单点故障。

最佳实践

实施多层重叠安全控制，避免依赖单一安全机制
在信息进出系统的所有点应用安全控制：用户输入、工具调用、数据预处理、模型推理
为不同功能分离智能体，对智能体间交接应用严格边界与运行控制

（二）开发安全的智能体

受众：自主智能体 AI 开发者与供应商；运营商选择 AI 智能体与应用时可参考。

AI 智能体的复杂性与自交互性带来强大能力，也引入独特攻击面。缓解这些风险需要超越标准 LLM 实践的训练方法，结合专用技术强化智能体行为。

1、全面测试

全面测试策略可在监督训练阶段让模型接触安全滥用实例，提升模型识别与响应不良行为的能力。

最佳实践

用奖励建模与对抗测试检测规范博弈，明确将安全约束与性能目标结合
在模拟受控环境中训练 LLM 智能体，学习动作影响而不造成真实安全危害
利用合成数据生成创建反映真实运行场景的对抗训练样本
将主动学习应用于对抗训练场景，使智能体接触高不确定性输入，更高效发现意外行为

2、适当评估

AI 智能体在复杂环境中自主运行，需要比 LLM 更全面的评估。

最佳实践

用相关威胁模型定义评估场景，包含典型训练条件外的边缘案例
采用Best-of-N采样、多步推理提示、推理时缩放等技术，全面展现智能体行为与能力
在不同自主级别评估系统，理解环境变化（工具、模型、资源访问如网络搜索 / 代码执行）下的性能与风险
改变上下文条件（其他智能体存在与否、评估时机），理解对任务性能的影响
在智能体开发生命周期中持续开展能力评估

3、输入管理

强输入管理控制可部分缓解基于LLM应用（含 AI 智能体）的许多常见风险。

最佳实践

对所有智能体输入实施健壮输入验证与清洗
集成提示词注入过滤器与语义分析，检测恶意指令
验证上下文，确保执行前系统正确解释意图

4、红队演练

组织应使用红队演练评估AI智能体的安全性与弹性。

最佳实践

部署沙箱环境，在生产部署前测试智能体行为
开展红队演练，识别潜在漏洞与非预期行为
用能力诱导技术探查意外或涌现能力，尤其可能造成重大资源 / 环境风险的能力
实施智能体模拟测试：多智能体红队、混沌测试

5、弹性

AI 智能体能力增强也提升失效或异常行为相关风险。强化自主智能体 AI 系统弹性，应支持降级，减少错误行为造成的损害。

最佳实践

为自主智能体 AI系统嵌入故障安全默认值与遏制机制，限制意外行为的影响范围
实施专门针对AI智能体行为的数据防泄漏（DLP）控制
实施版本控制与回滚机制，观察到不可预测行为时安全恢复到已知良好的智能体行为

6、责任

自主智能体AI系统应生成全面记录智能体动作与决策流程的制品与信息。

最佳实践

默认集成全面制品日志机制
为所有智能体间交互集成统一审计日志，保持所有智能体交换的可观测性
使用可解释性工具，确保智能体决策与推理的可观测性
要求智能体对响应关键方面的来源进行明确信息引用

7、第三方组件管理

可扩展性与灵活性是 AI 智能体的关键特性。多数情况下，第三方组件/ 具提升可扩展性与灵活性，但扩大智能体攻击面。验证与管理自主智能体应用的第三方组件可降低附加风险。

最佳实践

验证所有外部第三方组件来自可信来源且为最新版本后再纳入系统
维护第三方组件可信注册表
采购自主智能体 AI 系统时参考 CISA 的《软件物料清单（SBOM）网络安全共同愿景》与《软件物料清单最低要素》（2025 年）
将工具使用限制在定期验证安全的批准允许列表内的工具与版本
验证智能体工具使用行为符合文档化安全策略
日志记录智能体工具使用，确保结果以人类可读格式存入系统日志
建立触发——动作协议，出现意外行为时自动限制智能体权限
通过定义 “编排器”“读取器”“执行器” 等角色明确职责分离，设定清晰边界、共识机制与委派过期时间
基于风险为动作实施共识控制：中等风险动作采用多智能体审批，高风险动作采用多智能体共识+人在回路审批
禁止智能体在无明确过期计时器与记录授权链的情况下，修改自身权限或发起未批准委派
用一致格式标准化工具描述，避免诱导性语言

（三）安全部署智能体

受众：自主智能体 AI 供应商与运营商；开发者可参考确保应用支持这些最佳实践。

将 AI 智能体集成到新系统或网络会显著改变系统风险考量。在部署阶段实施高影响安全控制，可主动管理新风险、减少漏洞。

1、威胁建模

将自主智能体 AI 纳入现有系统会显著改变威胁态势。部署 AI 智能体前开展威胁建模，提升意识，更好准备部署。

最佳实践

使用最新自主智能体 AI 系统风险分类法开展真实威胁建模
设计并实施应对新兴与演进智能体能力的安全控制
使自主智能体 AI 控制与现有安全框架、国家指南、同盟协议对齐：如零信任原则、NIST零信任架构指南
制定并测试事件响应流程，检测、遏制、恢复智能体被攻陷场景
定期开展特权架构第三方评审，与可信伙伴共享可行动情报，更新风险模型以反映新兴恶意趋势

2、治理

自主智能体 AI 系统的自主动作引入新风险，需要更新治理政策、持续运行时认证，并为每个动作设置集中式策略决策点。

最佳实践

实施并维护治理政策，管理自主智能体
在政策中定义自主智能体 AI 系统的法律责任与风险归属
提升组织 AI 素养
参考 CISA《运营技术中安全集成人工智能原则》，了解 OT 环境 AI 治理建设

3、渐进部署

AI 智能体的风险概况随权限与允许动作显著变化。渐进式部署旨在限制初始风险，直到操作者与用户更熟悉并理解自主智能体应用的局限性。

最佳实践

分阶段部署，逐步提升访问权限与自主性，必要时限制动作空间：如受限API、沙箱
采用分级自主性，在保持人类监督与理解的同时逐步增加智能体独立性
用持续评估决定何时扩大系统范围，或在故障时回滚自主性与访问权限

4、默认安全

安全默认配置降低部署风险，支持系统降级时的安全性。

最佳实践

将系统配置设为默认故障安全：不确定场景下智能体停止并升级问题给人类评审者
使用错误处理与故障转移管理，降低系统失效影响
实施优雅降级模型，部分功能失效时智能体仍保持部分功能

5、护栏与约束

部署阶段实施智能体护栏与约束，降低 AI 常见安全风险暴露，建立对智能体的信心与理解。

最佳实践

指定清晰、受限目标，明确 “禁止执行” 规则
实施护栏与硬约束：拒绝列表、API 级安全策略
建立带约束与护栏的声明式安全协议，智能体不可覆盖
应用多层护栏机制：从异常检测、基于规则过滤到专用机器学习算法，检测并过滤禁止行为
优先评审高风险事件：护栏触发、人类评审者拒绝动作
部署次级智能体，执行前对照策略验证新任务

6、隔离

部署应考虑 AI 智能体集成需求，尽可能应用隔离，减少智能体意外或恶意行为引发的级联问题。

最佳实践

实施隔离与分段，限制智能体失效场景的影响范围
将高风险智能体分离到独立域
将智能体隔离到无日志写入权限的安全区域

（四）安全运行智能体

受众：自主智能体 AI 供应商与运营商；开发者可参考确保应用支持这些最佳实践。

AI 智能体运行带来显著收益的同时，也伴随重大风险。运营商必须勤勉管理持续安全问题，避免智能体造成弊大于利的结果。

1、监控与审计

AI 智能体的核心优势是动态行为，应用灵活但也难以溯源其应然与实然行为。运营商应实施持续监控与审计，保持对 AI 智能体运行的感知，确保决策与动作可追溯。持续审计流程改进安全措施，确保与治理标准（风险管理、监督、使用限制）对齐。

最佳实践

使用可以增强人类对自主智能体 AI 系统监督的监控工具
监控所有智能体运行（含内部流程），而非仅输入输出
监控并日志记录身份与权限变更，定期审计偏移、冒充、配置错误
监控智能体输出与行为，识别偏差、数据漂移、其他异常模式：用户提示、工具调用、记忆交互、内部推理、决策、动作
维护全面日志，实时监控在线智能体行为与决策
实施运行时监控与异常检测，用规则或行为基线识别异常模式，触发告警或暂停
建立异常检测机制，标记声明意图与观测行为间的差异
使用多个独立监控系统交叉验证智能体报告与系统日志
通过执行前对比活跃目标与批准基线规范，监控目标偏移
将源检查与智能体日志集成，记录系统使用的工具与检索的信息
实施结合人类评审与系统日志自动分析的审计实践
用监控数据支持自适应防御，实现快速响应：如基于系统日志发现问题实施补丁
使用存储高效的日志方法，管理日志体积且不丢失关键信息
定期开展安全评估：渗透测试、专门针对自主智能体行为的红队演练

2、输出验证

AI 智能体输出是监控行为的少数具体数据点。确保输出有效、符合预期行为是正确运行的关键指标。

最佳实践

通过多源验证关键方面准确性，验证智能体输出
在冗余智能体环境中通过交叉检查验证智能体，相互验证输出
验证工具响应，防范恶意或不安全指令；标准化工具描述，避免诱导性语言

3、人在回路

智能体错误或意外决策可能导致重大损害（如删除重要数据）。将人类监督、审批、评审纳入自主智能体AI工作流，是确保系统安全运行的重要控制——尤其对高影响、难回滚的动作。

最佳实践

人类审批要求由系统设计者或操作者决定，不委托给自主智能体 AI 系统
禁止智能体在无事先人类审批的情况下自主执行高影响动作或输出
对错误成本高的动作插入人在回路评审 / 审批检查点：系统重置、网络出口、删除关键记录
隔离删除日志或审计记录的请求，直到人类评审批准
明确分配系统导致错误或不利结果的责任与问责
开展风险评估，按潜在影响、可能性、可回滚性分类智能体动作，应用适当防护措施

4、性能监控

与任何系统组件一样，性能对AI智能体至关重要。性能降级或异常可能表明智能体或组件攻陷。

最佳实践

评估智能体规避安全措施的能力，尤其在敏感或高影响系统中
定期评估智能体绕过防护的能力：通信屏障、护栏、监控器、人在回路流程、输入过滤器
用评估结果验证现有控制，指导更强安全措施开发
通过限速组件等控制限制智能体资源使用，中断长时间运行任务，破坏恶意工作流

5、权限与认证

对AI智能体的持续严格权限管理是长期安全的关键。此处疏忽可能将缺陷智能体的影响从轻微升级为灾难。

最佳实践

将AI智能体权限限制为任务所需最小必要权限
将权限范围限制到最窄级别，实现允许动作的细粒度控制
实施智能体信誉与信任评分机制，检测到异常行为时降低信任级别
高影响或特权动作要求即时凭证
对照用户/智能体组验证API调用者身份
每次特权调用前应用密码验证和认证智能体
授权命令与指令要求密码签名
对应用密码任务定义与约束进行完整性检查
要求智能体执行密码学证明：证明运行预期且未修改的代码
用集中式策略决策点在运行时持续验证身份与授权

五、防范未来风险

随着自主智能体 AI 扩展到更多角色、获得更强能力，组织必须预判并应对这些系统引入的新风险。尽管业界与学术界正在开发自主智能体 AI 安全实践，但该领域仍在演进，需要持续研究与落地智能体安全，应对新兴挑战。

为帮助制定稳健的自主智能体 AI 系统安全标准，编写机构建议安全从业者与研究人员采取以下行动。

（一）通过协作扩展威胁情报

自主智能体 AI 系统的威胁情报仍在演进，可能带来重大安全敞口。现有框架（如 OWASP 2025 年 LLM 与生成式 AI 应用十大风险与缓解措施、MITRE ATLAS™）聚焦 LLM 漏洞，行业报告强调平台滥用而非自主智能体 AI 特有威胁。因此，部分自主智能体 AI 专属攻击向量可能未完全捕获或解决。

最佳实践

加强相关方协作，跟上自主智能体 AI 系统威胁演进
与主要 AI 开发者、政府机构协调，汇编并维护威胁信息
采用协作安全方法
实施针对攻击者与技术的告警、数据收集、跟踪方法
长期开展威胁与能力定向分析，提升态势感知
跨行业统一威胁情报，建立共享威胁分类法，改进威胁建模，支持更有效的缓解设计

（二）开展稳健的、面向智能体的专项评估

现有许多自主智能体 AI 安全评估方法仍在演进，可能对微小语义变化敏感、因场景而异、仅部分捕获真实部署条件。这些限制带来风险敞口，忽略关键安全问题，使智能体安全与系统架构的可靠验证几乎不可能。

最佳实践

开发稳健评估方法，解决自主智能体系统验证缺口
生成覆盖新领域、代表真实部署环境的基准数据集
用评估结果验证新兴安全实践，识别智能体失效点
共享评估结果，加强安全评估，支持全行业改进安全实践

（三）利用系统理论方法分析安全

自主智能体 AI 系统是由 LLM、人类、护栏、数据集、工具、硬件组成的复杂生态，安全风险通常源于组件间交互而非孤立缺陷。传统组件级分析不足，监控这些系统同样困难：决策阈值模糊、推理链长、日志庞杂冗余。本地化日志方法很少提供全面可见性，使系统理论方法成为理解并缓解全架构风险的必要手段。

最佳实践

用系统理论方法分析自主智能体 AI 系统，识别适当安全措施
应用系统理论过程分析（STPA）及其安全扩展（STPA‑Sec），分析概念或运行系统、识别安全问题、评估任务风险、指导潜在缓解措施
用基于系统理论的因果分析（CAST）调查安全事件，识别系统级根本原因
在自主智能体 AI 系统全生命周期中应用STPA与CAST，同步解决安全与保障问题
参考麻省理工学院 STAMP 材料了解STPA 与CAST，参考《安全与保障系统思维》了解STPA‑Sec

六、结论

自主智能体 AI 系统提供强大的自动化收益，但其在互联工具、数据、环境中自主行动的能力，带来超越传统软件或生成式 AI的安全风险。如本指南所述，权限提升、涌现行为、结构依赖、责任缺口可能以不可预测方式相互作用。随着组织赋予自主智能体 AI 系统更大权限与运行范围，这些组合风险愈发难以预测、观测与遏制。

因此，组织应以安全为先采用自主智能体 AI，认识到更高自主性会放大设计缺陷、配置错误、监督不足的影响。增量部署自主智能体 AI，从明确定义的低风险任务开始，对照持续演进的威胁模型持续评估。强治理、明确责任、严格监控、人类监督并非可选防护，而是必要前提。在安全实践、评估方法、标准成熟前，组织应假设自主智能体 AI 系统可能出现意外行为，并据此规划部署，优先弹性、可回滚、风险遏制而非效率提升。

七、更多信息（略）