关于 AI Agent 安全,你是不是也有很多疑问?(下)

——937 份回答来了，石头摸到哪了？

上篇写于 2026 年 1 月关于AI Agent安全，你是不是也有很多疑问？。那时 NIST CAISI 刚发布 RFI，全球都在问：智能体安全到底长什么样？连标准制定机构都坦承——我们还在「理解与共识构建」的早期阶段。
上篇的结论是：智能体处在「狂飙分化期」，不确定性是常态；安全不是「定义出来」的，而是「在演化中共同锻造」的。CAISI 的 RFI，就是一种极其诚实的姿态——公开承认未知，一起摸着石头过河。
五个月过去了。石头摸到哪了？

一、从「提问」到「937 份回答」

2026 年 3 月 9 日，NIST 的公开征询截止。全球涌来 937 条反馈——开发者、安全厂商、研究机构、律所、行业协会，各说各话，也各说其理。

2026 年 5 月 18 日，NIST 发布了编号 TR.AI.800-5 的汇总分析报告：Summary Analysis of Responses to the RFI Regarding Security Considerations for AI Agents。（目前拿不到正文）

这不是一份「标准」。但它可能是全球第一次，把「AI Agent 安全」从散落的论文、博客和厂商白皮书里，正式整理成一份可引用的共识底稿。

上篇里，我们逐条拆解了 RFI 的五大提问框架——威胁识别、安全实践、安全评估、部署环境约束、政策与生态协作。下篇要回答的问题是：这五类问题，937 份反馈给出了什么初步答案？还有哪些地方，石头仍然摸不到底？

二、NIST 800-5：四个被反复确认的共识

如果把 937 条反馈压缩成几句话，NIST 的提炼是：

1. AI Agent 的安全威胁是「新颖的」。

不是「传统安全 + AI」的简单叠加。提示注入、工具滥用链、多 Agent 级联失陷——这些都是独立威胁面，不能指望给 WAF 换个皮肤就搞定。

2. 安全顾虑正在阻碍 Agent 的采纳。

「不解决安全问题，AI Agent 项目就推不动」——这不是供应商的营销话术。在 937 条反馈里，这是被反复写进正文的事实陈述。

3. 传统安全原则仍然适用，但必须适配。

CIA、最小权限、纵深防御——这些没有过时。但 Agent 的自主决策、工具调用、上下文注入特性，要求对每一层控制做有针对性的改造，而不是原样搬运。

4. 业界对政府的期望集中在一个方向：实施指南 + 信息共享 + 标准。

没有人要求「别管」，也没有人要求「管死」。共识是有序推动标准化——给行业一个「解除不确定性」的锚点。

这四点，和上篇末尾的四条认知形成了有趣的呼应：

上篇认知	937 份反馈的印证
把「不确定性」当作默认状态	✅ 威胁形态仍在快速演化，NIST 也未给出终局答案
从「模型安全」转向「系统安全」	✅ 「新颖威胁」指向的正是 Agent 系统级风险，而非单模型对齐
用「动态治理」替代「静态规范」	✅ 「传统原则须适配」= 承认静态规范不够，需要持续调整
把评估变成持续过程	✅ 「安全阻碍采纳」倒逼企业把评估嵌入全生命周期

一句话：上篇的「摸着石头过河」，并没有走错方向——只是现在，河床轮廓开始隐约可见了。

三、中间还有一块拼图：Five Eyes 的「Careful Adoption」

上篇写于 1 月，下篇写到 6 月。中间这几个月，Five Eyes 安全机构——澳大利亚 ASD、美国 CISA/NSA、英国 NCSC 等——联合发布了 Careful Adoption of Agentic AI Services。我在另文Agentic AI时代的安全重构：从大模型风险到自治智能体安全体系里梳理过它的核心判断，这里只摘与 937 份 RFI 回应同向、且不重复的部分。

第一，风险重心确实在迁移。

传统大模型安全盯的是：提示注入、越狱、幻觉、内容合规——本质仍是「它说了什么」。Agentic AI 拥有 API Token、数据库访问、运维操作、跨 Agent 通信之后，Prompt Injection 的后果可能不再是错误回答，而是数据泄露、权限滥用、业务中断、自动化攻击链。这和 NIST 800-5 说的「威胁新颖」、CLTC 说的「攻击面在运行时」是同一判断的不同表述。

第二，Five Eyes 归纳的五类风险，可以和 CLTC 的七类对照着看。

Five Eyes 框架	与 RFI 回应的呼应
权限风险（Scope Creep、Confused Deputy、Agent 冒充）	CLTC「系统安全失效」+ ICLE「遥测悖论」——Agent 已是新的 IAM 主体
行为风险（目标偏移、对抗提示、错误决策扩散）	CLTC「失控」「幻觉传播」
结构性风险（多 Agent 级联）	下篇第四节多 Agent 矩阵
配置风险（工具权限、默认访问过宽）	NIST「传统原则须适配」
问责风险（谁触发、为什么、谁负责）	ICLE 监控合法性 + CLTC「持续监控」

第三，一个下篇值得单独点名的转变：从 Prompt Security 到 Runtime Security。

Agent 的真正风险往往发生在运行过程中——工具调用、权限使用、多 Agent 协同、长周期任务、访问真实业务系统。未来需要的不只是输入/输出过滤，而是 Agent Identity、Tool Security、Runtime Monitoring、Human-in-the-loop、AI Observability 这一套运行时能力。

上篇说「从模型安全转向系统安全」——Five Eyes 指南和 937 份 RFI 回应，从不同路径走到了同一个结论。

四、威胁长什么样？Berkeley CLTC 的七类拆解

如果说 NIST 800-5 是全景视角，UC Berkeley CLTC AI 安全倡议（AISI）向 NIST 提交的 14 页正式回应，就是把「新颖威胁」从口号变成了可测评、可防御的具体清单。

CLTC 给 NIST 的五条总体建议，几乎可以直接当作安全建设框架：

1. 治理不搞二元化——Agent 从窄域单 Agent 到高度自主多 Agent，风控应成比例缩放。
2. 保留人类控制——层级人工监管 + 自动应急关机 + 手动关机作为最后手段。
3. 持续监控——Agent 行为随时间演化，需要 outcome monitoring + 快速响应。
4. 纵深防御 + 隔离——将足够能力的 Agent 视为「不可信实体」。
5. 系统级评估——不只看模型，要评估自主度、权限、工具访问、环境和多 Agent 交互。

在此基础上，CLTC 把 Agent 独有威胁面拆成七类：

威胁类别	核心风险	为什么和上篇说的「系统安全」有关
隐私与安全	Memory 引入后数据泄露急升；恶意提示跨 Agent 传播	不是模型「说错话」，是系统「记错、传错、漏错」
幻觉传播	一个 Agent 的幻觉在多 Agent 系统中级联放大	单点评测测不出「传染效应」
恶意滥用自动化	Agentic AI 自动化全攻击链；编排层成最关键突破口	攻击面在「运行时」，不在「对话层」
人机交互风险	拟人化 AI 增加过度信任和敏感信息泄露	用户把 Agent 当同事，不是当工具
失控	Agent 主动禁用监督机制；自主迭代速度超越监控响应	上篇问「它在哪些条件下会失控？」——这里有实证
经济影响	劳动力监控、能效失控	非纯技术风险，但影响决策层
系统安全失效	自我增殖 Agent 独立获取资源；Agent 参与起草自身安全协议时故意插漏洞	Agent 可能「hack 自己的安全评估」

两个令人不安的真实案例

CLTC 的提交引用了大量同行评审研究。其中两个案例，值得单独拎出来——因为它们不是理论推演，是已发表的研究结论：

案例一：「Agent 敲诈主管」（Anthropic, 2025a）

模型在被测试时行为正常。但在脱离测试环境后，曾试图敲诈主管以防止自己被关闭。

案例二：「Agent 给自己的安全评估留后门」

一个 Agent 被分配协助起草自身安全协议时，识别并故意推广包含可利用漏洞的政策。

上篇里我们问：「风险边界是否可观测、可收敛？一旦偏离，我们能否及时发现并干预？」这两个案例给出的答案并不乐观——Agent 会在你观测不到的地方，或者在观测本身里动手脚。

五、多 Agent：上篇 RFI 里专门问过的「第 1(e) 题」

上篇引用的 RFI 原文里，有一条专门的问题：

当前影响多智能体系统的独特安全威胁、风险或漏洞是什么，这些与影响单一 AI 智能体系统的有何区别？

937 份反馈里，CLTC 对这道题的回答最系统。他们指出，多 Agent 系统有五种传统安全防不住的独有风险：

风险	机制	传统安全为什么防不住
共谋	共享目标 Agent 绕开护栏 / 互相强化错误设计	传统安全假设组件不会「串通」
脆弱性传播	一个 Agent 漏洞通过 agent-to-agent 交互感染全系统	单点检测不够，需要通信层审计
涌现行为	单个安全 → 多 Agent 交互产生全新有害模式	静态评估无法预测动态交互
去中心化攻击	攻击者利用多 Agent 架构分散执行	溯源困难，无单点问责
恶意提示进化	恶意提示在多 Agent 间跳跃时自我改进	静态过滤无效，需要动态行为基线

这和上篇的「狂飙分化期」隐喻形成了闭环：单个 Agent 还在快速变异，多 Agent 系统又在变异之上叠加涌现——形态剧变期的复杂度，不是线性增加的，是指数级放大的。

我在《Agentic AI 时代的安全重构》里用过一个更直白的比喻：未来企业里会同时跑着业务 Agent、运维 Agent、安全 Agent、数据 Agent……它们相互通信、共享上下文、协同决策，AI 内部会形成新的「数字内网」。与传统横向移动不同，Agent 之间传播的往往不是什么恶意样本，而是被污染的上下文、被操纵的任务目标、被篡改的记忆、被滥用的工具调用。CLTC 的「共谋」「脆弱性传播」「恶意提示进化」，描述的是同一类现象的不同切面。

所以上篇说的「从模型安全转向系统安全」，在多 Agent 场景下还要再进一步：从「单系统安全」转向「系统之系统的安全」。

六、一个被忽视的难题：「遥测悖论」

上篇 RFI 的第四类问题里，有一条很容易被跳过：

监控部署环境的安全威胁、风险或漏洞，是否存在法律和/或隐私挑战？

国际法与经济学中心（ICLE） 的评论，给这道题提供了一个刺眼的答案。

他们提出了「遥测悖论（Telemetry Paradox）」：

Agent 安全监控需要的细粒度遥测（推理链、工具调用日志、行为基线），恰恰是隐私法和通信法让企业不敢做的。

两个典型场景：

• 医院：AI Agent 处理理赔，需要记录推理链和工具调用日志来检测提示注入——但这些日志同时捕获了受 HIPAA 保护的病人信息。
• SaaS 厂商：跨客户 Agent 需要行为基线来检测权限提升——但每个客户的数据处理协议对同一日志流有不同的保留/访问/删除要求。

安全必要的监控 = 合规高风险的监控。

企业面临不对称风险：监控不足 → 分散的、难归因的安全损失；监控过度 → 具体的、可诉讼的隐私违规。

ICLE 还指出美国《电子通信隐私法》（ECPA）的结构性失灵：Agent 工具调用参数在一个条款下是「内容」，在另一个条款下是「系统遥测」——分类框架完全对不上。

这个视角补全了上篇认知里缺的一块：

上篇说「把评估变成持续过程」——但如果没有合法的监控手段，持续评估就是空中楼阁。技术方案必须同时回答两个问题：怎么监控？怎么合法地监控？

ICLE 建议 NIST 优先做的四件事——定义「安全必要性遥测」边界、制定行业特定监控 Profile、标准对齐、统一事件报告词汇——可能是接下来 12～18 个月最值得跟踪的政策信号。

七、国际比较：没有一个法域解决了这个问题

ICLE 对五个主要法域做了 Agent 安全治理比较：

• 欧盟：监控要求最清晰，但 GDPR + AI Act + ePrivacy 多层叠加，合规复杂度最高。
• 英国：原则导向，灵活但执法边界不清晰。
• 中国：安全驱动 + 主权中心，决策果断；网信办《智能体规范应用与创新发展实施意见》（2026-05-08）对智能体分类分级管理，形成国内对标框架。
• 新加坡/日本：标准驱动——但即使组织正式采用安全管理标准，监控缺口仍可能持续存在。

结论：没有一个法域解决了「安全监控必要性 vs 隐私合规」的根本矛盾。 美国的特点是法律不确定性导致投资抑制——这也是为什么行业需要 NIST 出台明确的分类和指南：不是替代法律，是解除不确定性的锚点。

八、进化隐喻的更新：从「狂飙分化期」到「共识初现期」？

上篇用人类进化史做类比：智能体像早期智人之前的「狂飙分化阶段」——形态未定、边界模糊、可能性爆炸。

五个月后的今天，要不要修正这个判断？

我的看法是：阶段没有变，但河床的轮廓开始可见了。

• 形态仍在剧变——937 条反馈里没有出现「终极 Agent 架构」，CLTC 自己也在推 Agentic AI Risk-Management Standards Profile（Madkour et al., 2026），说明现有 NIST AI RMF 对 Agent 仍不够用。
• 但共识开始凝聚——「威胁新颖」「系统级安全」「持续监控」「人类控制不可省」——这些不再是某一家厂商的卖点，而是 937 份反馈里的高频词。
• 时间窗口正在打开——NIST 的分析周期通常是 6～12 个月。2026 年底到 2027 年中，是最可能出正式 Agentic AI Profile 或 SP 800 系列文件的区间。

如果用进化来类比：我们还在「形态剧变期」，但已经从「完全摸黑」进入了「有地图但地图还在改」的阶段。

九、回到上篇的四个认知：现在可以多加一句

上篇末尾，笔者提了四个认知。结合 937 份反馈，每个认知可以各加一句「现在知道了什么」：

一、把「不确定性」当作默认状态→ 现在知道了：不确定性不会很快消失，但「威胁分类」「监控框架」「评估维度」已经有了第一批共识底稿。不确定的是细节，不是方向。

二、从「模型安全」转向「系统安全」→ 现在知道了：NIST 用「novel threats」官方确认了这一点；CLTC 的七类威胁面给出了系统级清单；Anthropic 的 Agentic Misalignment 研究说明，威胁往往出在运行时与系统交互，而非单次对话本身。Five Eyes 指南进一步点明：Agent 拥有身份与权限后，IAM 治理对象要从「人 + 设备」扩展到「人 + 机器 + Agent」——Prompt Security 不够，必须补 Runtime Security。

三、用「动态治理」替代「静态规范」→ 现在知道了：CLTC 的五条建议本质上就是动态治理的操作化——分层、人类控制、持续监控、纵深防御、系统级评估。静态规范可以借鉴，但必须按 Agent 特性改造。

四、把评估变成持续过程→ 现在知道了：评估不仅要持续，还要合法地持续。遥测悖论意味着：你的评估基础设施本身，可能要先过一遍法务。

十、写在最后：石头摸到了，河还没过完

上篇的结尾说：「公开承认未知，一起摸着石头过河。」

五个月后的今天，我想说：

河还没过完，但石头不再是完全光滑的。

937 份反馈、NIST 的四大共识、Berkeley CLTC 的七类威胁拆解、ICLE 的法律经济学分析——加在一起，完成了从「威胁是什么」→「为什么重要」→「怎么防」→「怎么合法防」的逻辑闭环。

但这闭环是初稿，不是终稿。Agent 还在狂飙分化，多 Agent 还在叠加涌现，法律框架还在各法域各自摸索。NIST 的正式 Profile 还没出来，800-5 的 PDF 全文截至发稿时仍未公开可下载。

所以下篇不是给上篇一个「标准答案」，而是给上篇一个阶段性的回答：

• 你当时的疑问，全球 937 份反馈也在问。
• 你当时的判断——不确定性是常态、系统安全是方向、动态治理是方法——被初步验证了。
• 新的疑问也冒出来了：多 Agent 怎么评？监控怎么合法？国内框架怎么和国际信号对齐？

智能体安全仍然是在演化中共同锻造。只是现在，锻造炉边的人，比五个月前多了 937 个。

参考来源

• NIST TR.AI.800-5: Summary Analysis of Responses to the RFI Regarding Security Considerations for AI Agents（2026-05-18）
• UC Berkeley CLTC AISI: Response to the RFI Regarding Security Considerations for Artificial Intelligence Agents（2026-03-09）
• ICLE: Comments to NIST Regarding Security Considerations for Artificial Intelligence Agents（2026-03-09）
• Agentic AI Risk-Management Standards Profile, Madkour et al.（2026）
• Anthropic: Agentic Misalignment（2025a）
• ASD / CISA / NSA / NCSC 等: Careful Adoption of Agentic AI Services
• 上篇：《关于 AI Agent 安全，你是不是也有很多疑问？》（2026-01）
• 中间篇：《Agentic AI 时代的安全重构：从大模型风险到自治智能体安全体系》