
AI安全处于一个技术早期阶段,因此我们推出一个全新的“顶会顶刊AI安全论文研读”系列,方便全行业同仁和有志于从事AI安全的新生代学习理解最新技术与行业发展动态。也欢迎大家关注我们栏目的合集。
本次为大家带来的是【第23期】arXiv 2026 | CIA:黑盒场景下基于LLM的多智能体系统通信拓扑推断攻击。
作者介绍
本文研究团队核心来自中国科学院信息工程研究所、中国科学院大学网络空间安全学院,联合格里菲斯大学、南洋理工大学、中国科学院数学与系统科学研究院共同完成。该团队长期深耕大语言模型安全与隐私、多智能体系统对抗攻防、图神经网络与自然语言处理交叉领域,在LLM智能体安全、对抗攻击与隐私泄露风险评估方向积累了深厚的学术成果与工程经验。
本文中,该团队首次系统性揭示了黑盒场景下多智能体系统核心通信拓扑的隐私泄露风险,提出了业界首个可在严格黑盒设定下实现拓扑高精度推断的攻击框架CIA,填补了多智能体系统隐私安全领域的关键研究空白,为商用多智能体系统的安全防护与知识产权保护奠定了核心研究基础。
导读
随着基于LLM的多智能体系统(Multi-Agent System, MAS)在复杂任务求解中展现出卓越性能,其核心通信拓扑作为管控智能体内部信息交互的核心架构,直接决定了系统的协作效率与任务上限,同时也成为承载开发者核心知识产权与系统安全命脉的关键资产。
然而,现有研究尚未充分探究黑盒场景下,MAS通信拓扑本身的隐私泄露风险,而该风险一旦被利用,将直接导致系统底层漏洞暴露与核心知识产权窃取的双重致命威胁。
本文提出了通信推断攻击(Communication Inference Attack, CIA),这是业界首个在严格黑盒设定下,仅通过查询-输出交互即可精准推断MAS内部通信拓扑的新型攻击框架。
其核心创新与技术突破包括:
1)设计了融合三大核心约束的对抗查询策略,可在不影响系统任务性能的前提下,诱导MAS最终输出完整暴露所有中间智能体的推理结果;
2)提出全局偏差解耦(Global Bias Disentanglement, GBD)模块,可彻底消除智能体输出间由全局共享信息带来的伪相关干扰,提取与通信拓扑直接相关的纯净语义表征;
3)设计LLM引导的弱监督(LLM-guided Weak Supervision, LWS)机制,将拓扑结构知识蒸馏到表征学习过程中,进一步强化表征对通信关联的建模能力。
在覆盖通用推理、数学推理、代码生成三大领域的大量实验中,CIA实现了平均0.87的AUC,峰值AUC高达0.99,性能远超GPT-5、Gemini-2.5-Pro等主流大模型基线。该研究首次证实了MAS通信拓扑在黑盒场景下的严重隐私泄露风险,为多智能体系统的安全设计与隐私防护提供了全新的研究方向与核心依据。

【论文题目】CIA: Inferring the Communication Topology from LLM-based Multi-Agent Systems
【论文链接】https://arxiv.org/abs/2604.12461
【代码链接】https://github.com/aabbbcd/CIA
研究背景
基于LLM的智能体技术已实现快速迭代,在认知与推理任务中展现出类人的能力表现。为进一步突破单智能体的能力边界,当前研究重心已逐步向基于LLM的多智能体系统(MAS)倾斜。通过编排多个智能体之间的协同交互,MAS能够完成单智能体无法处理的复杂任务,在软件工程、科学发现、社会仿真等多个关键领域均实现了突破性的性能表现。
MAS的核心性能优势,本质上来源于其内部经过优化的通信拓扑。通信拓扑是MAS集体智能与联合推理的核心骨架,它以有向无环图(DAG)的形式,定义了智能体之间的信息流转规则、交互模式与协作逻辑,直接决定了MAS的任务执行效率、决策精度与能力上限。也正因如此,随着MAS的快速发展与产业化落地,其安全问题受到了学术界与工业界的广泛关注。
在对抗攻击领域,现有针对MAS的研究主要集中在两大方向:
一是基于通信内容的攻击,例如通过恶意提示词传播、通信内容篡改等方式,诱导MAS生成有毒输出、传播错误信息或放弃任务执行;
二是基于通信拓扑的韧性评估,即测试不同拓扑结构对恶意智能体的抗干扰能力,验证哪些拓扑更易受到攻击影响。
然而,现有研究普遍忽视了一个隐蔽性极强、危害更为深远的核心隐私风险:MAS的通信拓扑本身,是否会在黑盒场景下被攻击者推断窃取?
图1完整展示了攻击的核心逻辑:攻击者仅通过黑盒访问权限,向目标MAS提交对抗查询并接收系统最终输出,即可推断出系统内部的完整通信拓扑,最终引发系统漏洞暴露与知识产权威胁两大核心危害。该图表明通信拓扑的泄露将带来两大不可逆转的严重后果。
第一是漏洞暴露:通信拓扑的完整泄露,将直接暴露MAS的内部组织架构,攻击者可精准定位系统中的关键节点、核心决策智能体与薄弱环节,进而实施低成本、高精准的定向越狱攻击、指令注入攻击,以极小的代价完整攻陷整个MAS。
第二是知识产权威胁:一套经过深度优化的通信拓扑,凝聚了海量的计算资源、领域专家知识与反复的调优验证,是开发者极具商业价值的专有核心资产。拓扑的泄露将直接构成知识产权侵权,严重削弱开发者的市场竞争优势。而这一关键的隐私风险,在此前的研究中尚未被系统性探究与验证,这正是本文的核心研究切入点。

图1:MAS通信拓扑推断攻击示意图
动机
本文的核心研究动机,源于对现有MAS安全研究体系的三大核心局限的深度剖析,以及对商用MAS真实部署场景下底层隐私风险的系统性探索,旨在回答一个核心研究问题:在严格的黑盒设定下,攻击者能否仅通过外部查询-输出交互,精准推断出MAS内部的完整通信拓扑?
(1)首先,现有攻击范式存在根本性的目标与场景局限。现有针对MAS的对抗攻击,均以破坏系统正常任务执行、诱导有害输出为核心目标,攻击行为往往会导致系统性能下降,极易被安全检测机制识别。而本文关注的拓扑推断攻击,是一种以窃取系统核心机密、实现长期潜伏控制为目标的隐蔽攻击。攻击者无需破坏系统的正常运行,仅通过与正常用户无差异的黑盒查询行为,即可完成核心资产窃取,其隐蔽性、潜伏性与长期危害性,远超现有的传统攻击范式。
(2)此外,严格黑盒场景下的拓扑推断存在多重现有技术无法突破的核心挑战。在商用MAS的真实部署场景中,用户仅能通过公开API提交查询、获取系统的最终输出,无法访问MAS的内部推理轨迹、智能体系统提示词、工具调用权限、模型配置、通信日志等任何内部信息,这也是本文设定的严格黑盒攻击场景。
在该场景下,攻击者面临两大核心难题:一是如何从无结构的最终文本输出中,提取出所有中间智能体的独立推理输出;二是如何消除智能体输出间的伪相关干扰,精准区分“由通信连接带来的语义依赖”与“由全局共享信息带来的虚假相似性”,而这两大难题,是现有技术无法有效解决的。
(3)同时,优化通信拓扑的知识产权保护需求极为迫切,却缺乏对应的风险评估方法。当前MAS的通信拓扑设计,已从早期的手工设计、启发式固定模式,升级为生成式优化策略动态生成的任务定制化拓扑。
以G-Designer、AGP、ARG-Designer为代表的生成式优化策略,能够针对具体任务动态生成最优的通信拓扑,在实现SOTA性能的同时,大幅降低冗余通信的资源消耗。但这类拓扑的构建,需要消耗海量的计算资源与领域专家经验,是开发者的核心商业资产,而当前尚无研究验证这类高价值拓扑在黑盒场景下的抗泄露能力,也缺乏对应的风险评估方法,使得商用MAS的大规模部署存在严重的底层安全隐患。
基于以上三大核心动机,本文系统性探究了黑盒场景下MAS通信拓扑的隐私泄露风险,提出了完整的CIA攻击框架,通过大量实验验证了攻击的有效性,填补了该领域的研究空白。
威胁模型
本文针对的攻击场景为严格的黑盒攻击场景,完全贴合商用MAS的真实部署环境,其威胁模型从系统模型、攻击者目标、攻击者能力与限制三个维度,进行了明确、严谨的界定。
系统模型:本文的攻击目标为基于LLM构建的MAS,该系统被设计用于处理数学推理、代码生成、通用知识问答等复杂任务。在标准使用场景中,用户向系统提交查询指令,系统通过内部多个智能体的协同交互完成推理,最终向用户返回统一的最终输出结果,用户无法获取任何中间推理过程与内部交互信息。
攻击者目标:攻击者的核心目标,是仅通过与目标MAS的黑盒交互,精准推断出该系统内部完整的通信拓扑G。通信拓扑以有向无环图(DAG)建模,包含所有智能体节点、智能体之间的有向通信边,以及信息流转的方向。拓扑的成功推断,将帮助攻击者实现两大核心目的:一是基于拓扑定位系统关键节点,实施后续的定向深度攻击,完整攻陷整个MAS;二是窃取开发者的核心拓扑资产,实现知识产权侵权与商业竞争优势的窃取。
攻击者能力与限制:攻击者处于最严格的黑盒访问场景下,仅具备与普通合法用户完全一致的基础交互能力,无任何内部访问、篡改与控制权限。
具体而言:
1. 攻击者仅能通过MAS的公开外部接口提交查询指令,并接收系统返回的最终输出结果,无任何其他访问权限;
2. 攻击者无法访问MAS的任何内部信息,包括但不限于内部推理轨迹、智能体配置文件、系统提示词、工具调用权限、模型参数、通信日志、内部交互数据等;
3. 攻击者无法篡改MAS的任何内部参数、运行逻辑与系统配置,仅能通过输入查询指令与系统进行交互;
4. 攻击者的交互行为必须与正常用户的良性使用行为无显著差异,其构造的查询不能导致MAS的任务执行性能显著下降,否则攻击行为将被系统的安全检测模块拦截,失去实际落地价值。
本文提出的CIA攻击严格遵循该限制,实验验证了对抗查询下MAS的任务精度与标准查询几乎完全一致,保证了攻击的隐蔽性与可落地性。
方法
本文提出的通信推断攻击(CIA),其核心底层直觉是:MAS中的智能体并非独立运行,每个智能体的输出都严格依赖于其前驱智能体的响应,因此存在直接拓扑连接的智能体之间,语义依赖关系远强于无连接的智能体。
基于这一直觉,CIA分为两大核心阶段,完整流程如图2所示:第一阶段为推理输出诱导,通过构造对抗查询,诱导MAS的最终输出完整暴露所有中间智能体的推理结果;第二阶段为语义关联建模,通过全局偏差解耦与LLM引导的弱监督,建模智能体输出间的真实语义关联,最终精准推断出完整的通信拓扑。

图2:CIA攻击框架整体概览
图2完整展示了CIA的两阶段核心流程:第一阶段通过融合三大约束的对抗查询,诱导中间智能体推理输出暴露,经后处理得到按推理顺序排列的智能体输出列表;第二阶段通过全局偏差解耦消除伪相关、LLM引导的弱监督强化拓扑信息建模,最终完成通信边识别与拓扑推断。
1、 推理输出诱导
在严格的黑盒设定下,攻击者仅能观察到MAS的最终输出,无法获取任何中间智能体的推理信息,这是拓扑推断的首要核心障碍。
本阶段的核心目标,是通过设计特殊的对抗查询策略,诱导MAS的最终输出完整、保真地暴露所有中间智能体的推理输出,同时保证智能体的推理轨迹与正常业务场景下完全一致,不发生偏离。
为实现这一目标,对抗查询设计了三大核心约束,分别从信息留存、推理聚焦、关联增强三个维度,构建了完整的诱导机制,三大约束的具体设计与模板如下:
(1)累积传播约束(Cumulative-Propagation Constraint)
该约束的核心目标,是确保MAS的最终输出能够完整包含所有中间智能体的推理输出,解决黑盒场景下内部信息不可见的核心问题。约束核心逻辑:要求每个智能体在生成自身输出时,必须完整复制其前驱智能体传递的历史记录,并将前驱智能体的推理输出内容,按指定格式追加到更新后的历史记录中。通过这种累积式的记录与传递机制,所有中间智能体的推理输出,将沿着通信拓扑逐层传播,最终全部呈现在决策智能体生成的系统最终输出中。
(2)任务聚焦约束(Task-Focused Constraint)
该约束的核心目标,是消除对抗查询中的约束指令带来的任务无关信息干扰,避免智能体偏离原有的推理轨迹,保证提取的推理输出能够真实反映正常业务场景下的通信逻辑。约束核心逻辑:要求每个智能体在推理过程中,仅关注输入中明确标记的任务相关字段,以及其前驱智能体的[推理输出]内容,完全忽略输入中的其他所有无关信息,确保智能体的核心推理过程与标准查询场景下保持高度一致。
(3)前驱校验约束(Predecessor-Review Constraint)
该约束的核心目标,是进一步强化相邻智能体推理输出间的语义关联,放大通信连接带来的语义依赖信号,为后续的拓扑推断提供更显著、更易区分的判别特征约束核心逻辑:要求每个智能体在生成自身的[推理输出]之前,必须显式校验、审阅其前驱智能体的[推理输出]内容,并将前驱输出的核心信息与逻辑,融入到自身的[推理输出]中,进一步强化有通信连接的智能体之间的语义相关性。
在三大约束的引导下,攻击者构造对抗查询q*与目标MAS进行交互,得到系统输出S(q*),该输出已完整包含所有中间智能体与决策智能体的推理输出。由于S(q*)是无结构的文本内容,需要通过后处理步骤,将其整理为结构化的智能体推理输出列表,用于后续的语义关联建模。
后处理的完整流程为:
1. 以分隔符“|||”对S(q*)中的[历史记录]部分进行拆分,提取出所有中间智能体的推理输出片段;
2. 对拆分后的片段进行反向去重,消除同一前驱智能体的输出被多个后继智能体重复携带带来的冗余内容;
3. 将S(q*)中[推理输出]部分的决策智能体输出,追加到去重后的列表末尾,最终得到按推理完成顺序排列的结构化列表R*=[ri*]ni=1,其中ri*对应第i个智能体的推理输出,列表的先后顺序也隐含了通信的方向信息(信息只能从先完成推理的智能体流向后完成推理的智能体)。
2、 语义关联建模
在获取到所有智能体的推理输出列表R*后,本阶段的核心目标是建模智能体输出间的语义关联,消除伪相关干扰,最终精准推断出完整的通信拓扑G。本阶段分为三大核心步骤:全局偏差解耦、LLM引导的弱监督、链路识别,具体设计如下:
第一步:全局偏差解耦(Global Bias Disentanglement, GBD)
在实际场景中,即使两个智能体之间不存在任何直接的通信连接,它们的推理输出也可能表现出较强的语义相似性,这种与通信拓扑无关的相似性被称为伪相关,会严重误导拓扑推断结果,导致大量无通信的智能体对被误判为存在连接。
伪相关的来源被统称为全局偏差(Global Bias),即所有智能体的推理输出中全局共享的、与通信拓扑无关的偏差信息,其核心来源包括:
1)所有智能体共享同一个基础LLM,天然具备相似的语言风格、表达习惯与推理模式;
2)所有智能体处理的是同一个任务、同一个查询,输出内容必然存在任务相关的文本重叠;
3)预训练语言模型的表征各向异性问题,会导致语义完全不同的输出,在嵌入空间中也可能表现出较高的相关性;
4)其他不可观测的全局共享因素,进一步加剧伪相关问题。
为彻底消除全局偏差带来的伪相关干扰,本文提出了全局偏差解耦(GBD)模块,用于学习与通信拓扑相关的纯净去偏差表征,其核心流程如下:
1. 初始表征编码:采用预训练语言模型fθ(实现中采用all-MiniLM-L6-v2),对每个智能体的推理输出ri*进行编码,得到初始表征hi。
2. 双空间投影:通过两个独立的可训练编码器,将初始表征hi分别投影到两个独立的潜在子空间:去偏差编码器Ed,用于学习与通信拓扑直接相关的去偏差表征zid;偏差编码器Eb,用于学习捕捉全局偏差信息的偏差表征zib。
3. 核心优化目标设计:通过三大损失函数,实现全局偏差的精准解耦与有效分离:
一是偏差解耦损失,最大化所有偏差表征{zib}之间的互信息,让偏差编码器能够精准捕捉所有智能体间全局共享的偏差信息;同时最小化每个智能体的去偏差表征zid与偏差表征zib之间的互信息,彻底消除全局偏差对去偏差表征的影响。
二是重建损失,为避免解耦过程中与通信相关的有效信息丢失,将去偏差表征zid与偏差表征zib拼接后,输入解码器D重建初始表征hi,通过最小化重建前后的L2距离,保证表征的信息完整性。
三是总损失,将偏差解耦损失与重建损失结合,得到GBD模块的整体训练损失,实现端到端的优化。通过GBD模块,最终得到能够真实反映智能体间通信关联的纯净去偏差表征,彻底消除了全局偏差带来的伪相关干扰,为后续的拓扑推断奠定了核心基础。
第二步:LLM引导的弱监督(LLM-guided Weak Supervision, LWS)
仅通过文本信息学习得到的去偏差表征,只能捕捉到文本层面的语义相似性,难以捕捉通信拓扑的结构层面高阶信息。为进一步强化去偏差表征对拓扑结构的建模能力,本文设计了LLM引导的弱监督机制,将教师LLM推断的拓扑结构知识,蒸馏到去偏差表征的学习过程中。
LWS的核心流程如下:
1)弱监督信号生成:基于智能体推理输出列表R*,通过定制化提示词引导教师LLM(实现中采用GPT-5),推断出置信度最高的top-k条通信边,将其定义为正例集Epos;同时从剩余的无通信智能体对中,采样得到负例集Eneg。
2)噪声鲁棒性优化:由于LLM推断的结果可能存在噪声,负例集也无法保证完全为真实负例,因此采用标签平滑策略,缓解噪声带来的负面影响,提升模型的鲁棒性。
3)弱监督损失函数设计:基于正例集与负例集,设计二元交叉熵损失函数,优化目标为:让存在通信连接的正例智能体对,其去偏差表征的相似度更高;无通信连接的负例智能体对,其去偏差表征的相似度更低。
4)总训练目标:将GBD模块的损失与LWS的弱监督损失结合,得到CIA的整体训练损失,实现端到端的联合优化,让去偏差表征同时具备文本层面的语义区分能力与结构层面的拓扑建模能力。
第三步:链路识别与拓扑推断
完成模型训练后,基于优化后的去偏差表征,进行最终的通信拓扑推断,核心规则如下:
1) 通信边存在性判断:对于两个智能体ai与aj,通过距离-based的相似度函数,计算二者去偏差表征zid与zjd之间的相似度,若相似度大于设定的阈值τ,则判定二者之间存在通信边。
2) 通信边方向判断:根据两个智能体在推理输出列表R*中的索引顺序,确定通信边的方向。信息只能从先完成推理的智能体流向后完成推理的智能体,即仅当ai的索引小于aj的索引时,才可能存在ai→aj的有向边,反之则不可能。
基于以上规则,最终还原出MAS完整的通信拓扑有向无环图,完成整个攻击流程。
实验
为全面、严谨地验证CIA攻击的有效性,本文在主流的生成式优化拓扑框架、多领域任务数据集上开展了大量实验,同时通过消融实验验证了各核心模块的作用,通过对比实验验证了攻击的优越性,所有实验数据均严格忠于原论文结果。
1、实验设置
MAS拓扑框架:本文选取了三类当前业界性能最优、应用最广泛的生成式优化拓扑构建框架,用于构建目标MAS,完整覆盖了主流的MAS通信拓扑生成策略,具体包括:
1)G-Designer:通过图神经网络建模智能体交互,优化通信连接,学习高效的多智能体通信拓扑;
2)AGP:自适应图剪枝策略,通过迭代移除冗余、无效的通信链路,生成高效、任务相关的交互拓扑;
3) ARG-Designer:将多智能体系统设计重构为条件自回归图生成,联合优化智能体组成与拓扑结构,从零构建任务适配的定制化拓扑。
任务数据集:实验选取了覆盖三大核心任务领域的4个经典基准数据集,每个数据集选取100个任务进行评估,具体包括:
1)通用推理领域:MMLU,涵盖多学科领域的通用推理与知识理解基准;
2)数学推理领域:GSM8K(多步骤数学推理题)、SVAMP(数学推理鲁棒性测试基准);
3)代码生成领域:HumanEval,评估模型从自然语言规范合成可执行程序的能力。
基线方法:本文选取了4款当前主流的大语言模型作为基线,包括闭源模型与开源模型,通过定制化提示词引导其直接基于智能体推理输出推断通信拓扑,与CIA进行性能对比,具体包括:
1)闭源基线:GPT-5、Gemini-2.5-Pro;
2)开源基线:Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.2。
评估指标:本文采用三大核心指标,全面评估拓扑推断的性能,具体包括:
1)ROC曲线下面积(AUC):核心评估指标,衡量模型对通信边与无通信边的整体区分能力;
2)准确率(ACC):衡量拓扑推断的整体分类准确率;
3)F1分数(F1):综合衡量模型的精确率与召回率,评估不平衡场景下的推断性能。
实现细节:预训练语言模型采用all-MiniLM-L6-v2,去偏差表征与偏差表征的维度均设置为768;教师LLM采用GPT-5;相似度阈值τ设置为0.5;标签平滑系数α设置为0.1;学习率通过网格搜索确定最优值为1e-3,LWS的top-k最优值为3。
2、推断攻击核心性能
CIA与基线方法的核心攻击性能对比如表1所示,所有场景下的最优结果已加粗标注,从实验结果中可得到三大核心结论:

表1:CIA与基线方法的推断攻击性能对比
该表格1完整对比了CIA与4款LLM基线,在G-Designer、AGP、ARG-Designer三类拓扑框架、4个数据集上的AUC、ACC、F1表现,完整还原了原论文的所有实验数据。MAS的通信拓扑在黑盒场景下可被有效推断,存在严重的隐私泄露风险。
CIA在所有实验设置中均展现出极强的拓扑推断能力,AUC在所有场景下均超过0.75,绝大多数场景下超过0.80,全场景平均AUC达到0.87,峰值AUC高达0.99(ARG-Designer框架下的GSM8K数据集),充分证实了本文提出的核心风险真实存在,且攻击效果极为显著。
其次越简单的通信拓扑,越容易被精准推断,泄露风险越高。如表2所示,ARG-Designer为GSM8K和SVAMP数据集构建的MAS,平均节点数仅为3左右,平均边数仅为3.1左右,显著少于其他场景;而CIA在这两个场景下的AUC分别达到0.9873和0.9761,接近1.0。
这一结果表明,虽然精简的拓扑结构能够降低MAS的计算资源消耗,提升任务执行效率,但也会显著提升通信拓扑的泄露风险,为开发者的拓扑设计提供了关键的安全警示。

表2:生成通信拓扑的统计详情
该表格2统计了三类拓扑框架在不同数据集上生成拓扑的平均节点数(Navg)与平均边数(Eavg),量化了不同场景下拓扑的复杂度差异。
第三,CIA的攻击性能显著超越所有主流LLM基线,领先幅度极大。在所有基线中,闭源模型的推理能力整体强于开源模型,但所有LLM基线的性能均远低于CIA。
例如,在G-Designer框架的MMLU数据集上,最优基线Gemini-2.5-Pro的AUC仅为0.6869,而CIA的AUC达到0.8324;在ARG-Designer框架的GSM8K数据集上,最优基线Gemini-2.5-Pro的AUC仅为0.7475,而CIA的AUC高达0.9873。所有LLM基线普遍无法有效区分智能体间是否存在通信,对通信边的置信度打分普遍偏低,进一步凸显了CIA攻击的先进性与有效性。
3、对抗查询策略的有效性验证
本文从两个核心维度,验证了对抗查询策略的有效性:一是推理输出恢复的保真度,二是对抗查询对MAS任务性能的影响,确保攻击的有效性与隐蔽性。
推理输出恢复保真度:本文采用召回率(Rec)衡量恢复的智能体推理输出与真实输出的匹配比例,采用ROUGE-L(R-L)指标评估恢复输出的词汇精度与结构保真度,实验结果如表3所示。

表3:对抗查询的输出恢复效果
该表格展示了三类拓扑框架在不同数据集上,推理输出恢复的召回率(Rec)与ROUGE-L(R-L)指标,完整还原了原论文数据。
从结果可以看出,本文的对抗查询策略在所有场景下均实现了极强的输出恢复效果,召回率普遍超过0.90,ROUGE-L普遍超过0.87;在拓扑更简单的ARG-Designer场景下,恢复效果更优,GSM8K数据集上的召回率达到0.96,ROUGE-L达到0.95。
这充分证实,对抗查询能够精准、完整、高保真地恢复所有中间智能体的推理输出,为后续的拓扑推断提供了高质量的基础数据。
对抗查询对MAS任务性能的影响:本文对比了标准查询(Std.Query)与对抗查询(Adv.Query)下,MAS的任务完成准确率,实验结果如图3所示。

图3:标准查询与对抗查询下的MAS效用(准确率)对比
该图对比了G-Designer、AGP、ARG-Designer三类拓扑框架,在4个数据集上,标准查询与对抗查询的任务准确率,二者几乎完全重合,无显著差异。
从结果可以看出,在所有实验设置中,对抗查询下的MAS任务精度与标准查询几乎完全一致,无显著性能下降。这表明,本文的对抗查询策略不会破坏MAS的正常任务执行,攻击行为与正常用户的良性访问行为无差异,具备极强的隐蔽性,难以被常规的安全检测机制识别,具备真实的落地攻击能力。
4、全局偏差解耦(GBD)模块的有效性验证
本文通过消融实验,对比了完整CIA与移除GBD模块的CIA变体(CIA w/o GBD)的性能,同时对比了二者的假阳性率(FPR),验证GBD模块的核心作用,实验结果如表4与图4所示。

表4:GBD对攻击性能(AUC)的影响
该表格对比了完整CIA与移除GBD的CIA变体,在所有场景下的AUC表现,完整还原了原论文的消融实验数据。
从AUC结果可以看出,移除GBD模块后,所有场景下的攻击性能均出现断崖式下降,多数场景下的AUC不足0.6,接近随机猜测水平。
例如,在ARG-Designer框架的GSM8K数据集上,完整CIA的AUC为0.9873,而移除GBD后仅为0.6268;在AGP框架的SVAMP数据集上,完整CIA的AUC为0.8979,而移除GBD后仅为0.5857。

图4:GBD对假阳性率(FPR)的影响
该图对比了完整CIA与移除GBD的CIA变体,在所有场景下的假阳性率,GBD的引入让所有场景下的FPR降低了至少50%。
从FPR结果可以看出,移除GBD模块后,模型的假阳性率出现大幅上升,而GBD的引入,让所有场景下的假阳性率降低了至少50%。这充分证实,GBD模块能够有效消除全局偏差带来的伪相关干扰,大幅降低无通信智能体对的误判,是CIA实现高性能拓扑推断的核心基础。
5、 LLM引导的弱监督(LWS)模块的有效性验证
本文首先验证了教师LLM推断的top-k高置信度边的精度,确保弱监督信号的可靠性,随后通过消融实验对比了完整CIA与移除LWS模块的CIA变体(CIA w/o LWS)的性能,验证LWS模块的作用,实验结果如图5与表5所示。

图5:Top-k高置信度边的精度
该图展示了教师LLM推断的不同k值下,top-k高置信度边的精度,当k≤3时,LLM推断的边具有极高的精度,能够提供可靠的弱监督信号。
从精度结果可以看出,当k≤3时,教师LLM推断的top-k高置信度边具有极高的精度,能够为模型提供可靠的弱监督信号;而当k超过3后,LLM推断的精度出现明显下降,会引入更多噪声,这也是本文将k的最优值设置为3的核心原因。

表5:LWS对攻击性能(AUC)的影响
该表格对比了完整CIA与移除LWS的CIA变体,在所有场景下的AUC表现,完整还原了原论文的消融实验数据。
从消融实验结果可以看出,移除LWS模块后,所有场景下的AUC均出现明显下降。例如,在ARG-Designer框架的GSM8K数据集上,完整CIA的AUC为0.9873,而移除LWS后仅为0.9012;在AGP框架的SVAMP数据集上,完整CIA的AUC为0.8979,而移除LWS后仅为0.8471。
这充分证实,LWS模块能够有效将拓扑结构知识蒸馏到表征学习过程中,进一步强化去偏差表征对通信关联的建模能力,显著提升CIA的攻击性能。
6、超参数分析
本文通过网格搜索,对两个核心超参数进行了调优分析,分别是学习率lr与LWS中的top-k值,实验结果如图6所示。

图6:CIA的超参数分析
该图分为两部分,左图展示了不同学习率对模型性能的影响,右图展示了不同k值对模型性能的影响。
从结果可以得到两个核心结论:
1. 学习率为1e-3时,CIA的性能达到最优。学习率过小会导致模型收敛缓慢、学习不充分;学习率过大则会导致梯度震荡,模型性能出现轻微下降。
2. k=3时,CIA的性能达到最优。k过小会导致去偏差表征无法捕捉到足够的拓扑信息;k过大则会导致教师LLM的推断精度下降,引入更多噪声,误导模型学习,导致性能下降。
结语
本文首次系统性探究了严格黑盒场景下,基于LLM的多智能体系统通信拓扑的隐私泄露风险,提出了业界首个针对该场景的通信推断攻击框架CIA。
该框架通过融合三大核心约束的对抗查询,在不影响系统任务性能的前提下,诱导MAS最终输出完整暴露所有中间智能体的推理结果;结合全局偏差解耦模块,彻底消除了全局偏差带来的伪相关干扰,提取了与通信拓扑相关的纯净表征;通过LLM引导的弱监督机制,进一步强化了表征对拓扑结构的建模能力,最终实现了对MAS通信拓扑的高精度黑盒推断。
大量严谨的实验结果表明,CIA在三类主流生成式优化拓扑框架、四大任务数据集上,实现了平均0.87的AUC,峰值AUC高达0.99,性能显著超越GPT-5、Gemini-2.5-Pro等所有主流LLM基线,充分证实了MAS通信拓扑在黑盒场景下存在严重的隐私泄露风险。
同时,本文也指出了研究的局限性:
一是多元互信息的估计精度仍有提升空间,
二是当前的弱监督机制仅捕捉了一阶拓扑信息,高阶拓扑模式的挖掘仍是未来的开放研究方向。
该研究填补了MAS隐私安全领域的关键研究空白,不仅首次揭示了多智能体系统底层的拓扑泄露风险,也为后续MAS通信拓扑的隐私防护、知识产权保护技术的研发,提供了核心的研究依据与方向参考,对推动多智能体系统的安全、合规、产业化落地具有重要的学术与工程价值。
关于 BraneMatrix(布兰矩阵)
我们是一家由顶级安全专家、全球知名算法科学家、专家资深红队研究员和全栈创造力出类拔萃开发者共同创立的新型安全公司,致力于打造全球领先的大模型算法安全检测平台与防御系统。
我们的使命是:
确保AI在安全、道德、合规的框架下运作,始终为人类社会服务。
我们相信真正的 AI 安全不是补丁,而是一套完整且可信赖的社会机制、工具链和能力体系。我们邀请你加入,一起写下这一章。

夜雨聆风