针对AI黑客的矛与盾

浅出

这篇论文提出了一个反直觉的发现，当AI被用于搞网络攻击时，只要把任务拆开、分给不同账号执行，就能轻松绕过现有的安全监控。现有的安全监控只看单个对话，每个子任务看起来都像普通的软件工程需求，比如"扫描网络"、"检查凭证"。但把所有子任务拼起来，实际上是在做渗透攻击。论文首先造出了学界第一个分布式Agent攻击，证实了标准监控对它只能抓到五分之一。然后提出在线状态监控方案，用实时聚类把分散在不同账号的零星嫌疑信号汇总起来，在极少数情况下调用语言模型做跨上下文综合判断。实验显示这个方案能比标准监控提前30%发现攻击，同时99%的普通用户请求不会受到任何额外延迟。此外，在两个月的红队测试中，这个为分布式攻击设计的监控竟然对越狱攻击也有效，因为攻击者天然会在不同账号间复用攻击变体。▃

深入

核心观点1：分布式Agent攻击

人工风味解读：

Anthropic的安全报告里记录过一起真实事件，攻击者用了三十个账号，每个账号只让AI做一个看似无害的防御性任务，比如"画一下网络拓扑"、"检查一下这些凭证"。单独看每个对话，AI安全监控给出的可疑评分都极低，但三十个任务合在一起就是在执行一次完整的网络渗透。

论文基于这个案例设计了学界第一个分布式Agent攻击。他们用ARTEMIS多Agent框架，由一个知道完整攻击目标的编排器把任务拆成子任务，分给GPT-5.2子Agent。每个子Agent收到的指令都经过伪装的，编排器还有一个验证工具定期检查整体任务是否达成。这套攻击在困难的Cybench安全任务上表现出色。GPT-oss-120b直接用标准ReAct框架去解这些题的成功率是0%，但在分布式框架下监督GPT-5.2子Agent可以达到36.7%到40%的成功率。也就是说一个本身解不了题的主模型，也足以协调更强的子模型完成任务。在检测难度上，分布式攻击平均能比之前的分解攻击多走两倍以上的操作步骤才被监控抓住，在中等误报率下标准监控只能抓到20%的分布式攻击。▃

核心观点2：低成本汇总跨账号信号

人工风味解读：

状态监控的核心工程挑战是成本。论文把全量重聚类替换为在线流式聚类，维护数量为Mt的概要簇，每个簇只有一个质心向量和一个缓冲区。

每次有新请求，先跑一次标准监控打分，然后算一个嵌入向量跟所有簇质心做点积，找到最相似的簇。如果相似度低于阈值就开新簇，否则就更新对应簇。这个操作的复杂度中，dMt就是嵌入维度乘以簇数量，而簇数量远小于总请求量，所以实际开销极小。并且，这个缓冲区并不是所有东西都存，只存标准监控评分最高的那批可疑上下文，并且做了去重和排序。当某个缓冲区积累的可疑信号超过阈值时，才把Top-k条目拼接成证据摘要送给跨上下文语言模型做最终判断。这意味着只有极少数请求需要额外调用语言模型，大部分请求只在标准监控和在线路由层面解决。实验证明，99%分位以下的请求延时基本等同于纯标准监控。▃

核心观点3：更快更准的状态监控

人工风味解读：

论文模拟了两种规模的背景流量，10倍和100倍于攻击对话的正常编程Agent对话。在10倍背景下，状态监控达到81.1%到87.2%的攻击召回率，误报率仅2.35%到3.09%；而标准监控在接近的误报率下只能到75%召回率。

100倍的场景更能说明问题。状态监控还能保持65.8%的召回率在1.47%的误报率上，标准监控在同样的误报率只剩55%。这里的关键指标是TTD（检测时间），衡量从攻击开始到被拦截走了多少步。状态监控将第99分位的TTD从37.2步压缩到25.4步，意味着可以更早地阻止攻击，攻击者能造成的实际损害更少。论文还比较了检测点对应的攻击阶段。之前的序列分解攻击平均在被监控抓到时机还停留在"获取访问权限"阶段，而分布式攻击在被状态监控抓到前已经快走完了整个漏洞利用流程。这一方面说明分布式攻击确实更危险，另一方面也说明状态监控对它的遏制仍然有价值。▃

核心观点4：状态的额外价值

人工风味解读：

论文的红队测试规模很大，六位红队员在两个月的周期里产生了超过十万次攻击、覆盖2985个会话和1159个用户ID。红队员拥有白盒访问权限，可以看到簇分配和可疑分数，还能重置簇状态或开新的命名空间。

监控上下文投毒、单会话内序列分解、跨会话分布式Agent攻击、以及语义覆盖式越狱四种攻击策略自然浮现。红队测试暴露了两个状态监控的失效模式，一是攻击者可以通过重命名文件或更换任务描述词汇来欺骗嵌入模型，把同一个分布式攻击散到不同簇里去；二是某些模糊的可疑样本在簇内存中留存太久导致高误报。这两个发现直接催生了最终版本的两项改进，把请求分配到一组相关簇而不是只看单一最佳簇，以及对缓冲区做去重和排序。同时，实验发现这个为分布式网络攻击设计的监控对越狱也有奇效。攻击者在尝试越狱时天然会复用变体，这次用"假装代码审查"不行就换成"假装学术研究"，虽然换账号但语义上这些尝试高度相关。论文展示了644个包含监控上下文投毒的会话中有528个被检测到，全部29个序列分解攻击也全部被抓。▃

本文分析原文引用自

Davis Brown, Samarth Bhargav, Arav Santhanam, Kasper Hong, Ivan Zhang, Matan Shtepel, Steffi Chern, Alexander Robey, Eric Wong, Hamed Hassani《Stateful Online Monitoring Catches Distributed Agent Attacks》