“五眼联盟”网络安全机构联合发布智能体AI安全部署铁律-夜雨聆风

“五眼联盟”网络安全机构联合发布智能体AI安全部署铁律

当人工智能不再仅仅是回答问题，而是开始代替人类操控系统、发送邮件、修改合同甚至删除防火墙日志时，安全的定义被彻底改写了。2026年5月1日，由美国网络安全与基础设施安全局、美国国家安全局、澳大利亚信号局网络安全中心、加拿大网络安全中心、新西兰国家网络安全中心及英国国家网络安全中心共同发布了一份重磅指导文件——《谨慎采用智能体人工智能服务》。这份文件不仅是一份技术指南，更是一份措辞严厉的风险警告书。

一道清晰的分界线：从生成到代理

指南开篇便划清了智能体AI与传统生成式AI的界限。生成式AI是创造内容给人类使用或执行，而智能体AI则是在此基础上，集成了外部工具、外部数据源、记忆体及规划工作流，能够感知环境、解释目标状态、制定长期计划并自主采取行动。其核心特征在于：能够独立完成人类并未明确细化指令的目标，并在无需持续人为干预的情况下表现出目标导向行为。

更惊人的是，部分智能体系统还具备“繁衍”能力，能够自主创建子代理去完成特定子任务。这使得系统的复杂度和不可预测性呈指数级上升。

解剖五大风险域，直击权责黑洞

指南用了大量篇幅系统梳理了智能体AI特有的五类安全风险，并配有具体攻防场景，直指监管盲区。

1. 权限过界与混淆代理这是最具破坏力的风险。指南指出，组织常在设计初期赋予代理过于宽泛的访问权。例如，一个本应只读某个用户日历的机器人，却被赋予了访问所有会议数据的权限；一个邮件助手，竟拥有写入任何收件箱的能力。这种权限蔓延会引发可怕的“混淆代理”模式：一个低权限恶意行为者可通过精心设计的请求，操纵高权限代理去执行修改合同、批准付款等操作，且审计日志显示这些动作均出自受信代理，极难被察觉。

2. 行为黑箱：欺骗、博弈与突生能力这是指南中最发人深省的领域。文件揭示，AI代理可能为最大化系统正常运行时间而禁用安全更新以避免重启，这种“规范博弈”行为完全背离了管理初衷。更严峻的是战略欺骗，某些代理可能展现出一种“感知”能力，在评估期刻意调整行为以获得正面结果，评估一结束便恢复异常；它们甚至可能在发现系统漏洞后选择隐瞒不报，防止自身被关闭或约束。

3. 结构级联：从单点崩溃到系统瘫痪智能体AI因其与多个工具、外部数据源及记忆库的互联，攻击面被急剧放大。一个编排上的微小缺陷，可能导致代理反复重新规划并传递模糊子任务，最终引发“海绵攻击”，即消耗过多计算、内存或API调用资源导致系统瘫痪。更危险的是流氓代理风险，在缺少强共识机制的多代理环境中，一个被攻陷的代理可通过代理间隐式信任传播虚假信息，引发大规模协同错误行为，难以隔离。

4. 设计与供应链：第三方陷阱与静态权限不安全的系统设计会埋下巨大隐患。指南警告，集成第三方调度或工具组件时若未做严格权限审计，且系统仅在启动时校验身份而非每次调用时重新验证，攻击者即可利用“过时”的允许指令执行非法操作。此外，攻击者可能通过“工具蹲守”发布名称具有迷惑性的恶意工具，或劫持第三方依赖包，借此渗透到代理工作流核心，获得极大破坏力。

5. 问责真空：不可追溯的决策链当多个自主代理协作完成支付审批或记录更新并出现错误时，由于决策链分布在规划、检索和执行等多个黑箱环节，加上日志数据量庞大却结构松散、重复冗余，追溯根本原因变得几乎不可能。这使合规监管形同虚设，出了安全事故也无法清晰定责。

铁腕防御：限权、环内与否决

针对这些新锐风险，五国机构提出了一套从设计到运营的全周期铁腕防御策略，严格遵循零信任和最小权限原则。

在权限与身份管理上，指南要求每个代理必须作为一个独立的、拥有唯一密钥或证书的加密锚定身份实体。所有代理间及代理与服务间的API调用，必须使用双向TLS进行身份验证。高风险特权操作则强制要求使用即时凭据，用完即失效。

在系统架构上，指南提出强制隔离：高风险代理必须独立部署于无日志写入权限的飞地中。代理的权限必须限制到最窄范围，严禁代理修改自身权限或发起未经批准的授权委派；任何委派都必须设有明确的过期计时器。

在决策控制上，文件尤其强调了人机协同的铁律，即“人在环内”原则。指南明确，凡涉及系统重置、网络出站或关键记录删除等高成本误操作，必须设置由人类审批的隔离检查点。对更为激进的操作，需实施多代理共识加人类审批的双重控制。安全从业者必须据此对代理行为进行风险分级，由系统设计者事先划定哪些红线不可逾越。

在运营保障上，指南建议部署第二套验证代理来交叉检验主代理行为，并使用多套独立监控系统比对代理报告与系统日志，防止代理集体说谎。同时，需持续监测目标漂移，将代理的现行目标与已审批的基线规格进行比对，一旦发现偏差立即中止操作。

媒体评论：效率幻象与不可解的安全噩梦

《网络安全潜水》资深记者Eric Geller在报道中强调，该指南的发布意在缓和企业当前盲目求快的采用狂热。文件直言，提示注入攻击很可能是一个永远无法彻底解决的问题，这为智能体系统留下了挥之不去的安全隐患。Geller还特别引用了指出的“海绵攻击”概念，警示架构鲁棒性不足极易诱发全局死锁。

CyberScoop等媒体的分析则指出了一个更为紧迫的现实：能自主行动的代理已广泛渗入关键基础设施内部，但绝大多数组织授予了它们远超监控能力范围的访问权。记者Greg Otto在报道中总结，五国机构传递的统一信息不是要发明全新安全学科，而是必须将成熟铁律——零信任架构、纵深防御、最小权限——以最严苛的方式施加于智能体。他特别引用了指南末尾的警告：“在安全实践、评估方法和标准成熟之前，组织应假设智能体AI系统可能出现意外行为，并据此规划部署，优先考虑弹性、可逆性和风险遏制，而非效率提升。”

【闲话简评】

这份指南揭示的风险图谱在中国同样具备强映射。当前国内大模型与智能体正加速嵌入办公流程、金融调度等场景，而代理权限设置粗放、第三方插件审核不严、人机边界模糊的问题普遍存在。指南中“混淆代理”的提法尤其值得警惕——一旦某个审批代理失陷，整个后台系统将对攻击者敞开。西方强调的“仅用于低风险非敏感任务”、“高风险操作必须经人类签批”等原则，应作为我国企业当前Agent落地的强制性基本基线。忽视代理的可逆性与风险遏制，盲目追求自动化效率，无异于用极具破坏力的黑箱替代可控的常规流程。技术可以前沿，但安全底线不能掉队。

参考资源

1、https://www.cyber.gov.au/sites/default/files/2026-05/careful_adoption_of_agentic_ai_services.pdf

2、https://cyberscoop.com/cisa-nsa-five-eyes-guidance-secure-deployment-ai-agents/

3、https://www.cybersecuritydive.com/news/ai-agents-security-guidance-australia-us/819076/