AI基础设施漏洞变体自动检测技术解读——基于INFRASCOPE多智能体审计框架
文献基础信息
文献来源:arXiv预印论文《Hunting Vulnerability Variants in AI Infra: Measurement and Reference-Driven Detection》,编号arXiv:2605.20051,发布时间2026年5月19日,方向为计算机安全(cs.CR)。
作者机构背景
本文由三方机构联合完成,各机构研究方向与贡献划分如下:
- 香港大学
:核心牵头单位,负责整体研究设计、大规模AI基础设施生态测绘、INFRASCOPE框架底层架构实现、漏洞语义建模核心算法开发,深耕软件安全、大模型代码分析、AI供应链安全领域,拥有成熟开源代码安全测量与静态分析研究积累。 - 腾讯安全研究院
:产业侧合作机构,提供海量AI开源仓库样本、真实漏洞披露数据集、工程落地优化方案,主导多智能体工具链适配、工业级代码审计流程打磨,长期面向LLMOps、Agent框架开展安全攻防研究。 - 东南大学
:理论辅助单位,负责漏洞传播语义抽象、PoC自动化验证逻辑、框架评估指标体系设计,专注程序分析、污点传播、大模型漏洞推理理论研究。
一、研究背景:AI基础设施漏洞变体的系统性风险
1.1 AI基础设施生态现状
AI基础设施(AI Infra)是支撑模型微调、推理服务、智能Agent编排的通用代码层,涵盖LLaMA-Factory、ms-swift、AutoGPT、LangChain等海量开源项目。2023-2026年该生态爆发式扩张,仅论文采集的688个GitHub仓库中,Agent编排类项目占比超54%,Python为绝对主流开发语言。
同类AI项目会复用高度相似业务流程:模型加载、远程权重拉取、WebUI参数配置、工具调用、向量库查询等逻辑在数十个框架中重复实现,但代码实现方式、模块划分、调用链路完全不同。开发者不会直接复制代码,而是基于相同业务需求重构逻辑,这催生变体漏洞——底层攻击触发逻辑一致,但代码结构、调用路径存在差异的同源漏洞。
1.2 传统检测工具的核心短板
现有漏洞扫描、代码克隆检测方案无法适配AI基础设施场景,存在三大硬缺陷:
- 依赖代码文本相似度匹配
:仅能识别复制粘贴的重复代码,对重构、跨模块、命令中转传播的漏洞完全失效; - 缺少已知漏洞语义迁移能力
:SAST静态工具基于固定CWE规则扫描,无法以已披露CVE为线索,在同类新项目中搜寻同逻辑漏洞; - 大模型独立审计存在幻觉、上下文限制
:通用代码Agent单次无法遍历大型仓库,长代码分析易丢失关键污点链路,且缺少自动化验证机制,误报极高。
1.3 实测数据佐证风险普遍性
研究团队完成行业首个大规模AI基础设施漏洞测绘,采集688个开源仓库、251条公开漏洞记录(232条含完整攻击触发流程),得到两大核心结论:
同类AI项目功能模块高度重叠:7个主流训练框架README语义相似度中位数达0.88,共享模型断点、分布式训练、WebUI等核心模块; 漏洞触发模式跨仓库高频复用:远程SSRF、模型反序列化、命令注入、SQL注入四类漏洞在4-7个独立项目重复出现,并非单一项目偶发缺陷。
典型漏洞变体案例(跨仓库RCE)参考漏洞CVE-2025-53002(LLaMA-Factory):WebUI接收用户可控适配器文件路径,直接传入torch.load反序列化,攻击者托管恶意权重文件即可远程执行代码。变体漏洞(ms-swift仓库GHSA漏洞):同样是WebUI传入用户自定义模型路径,但代码未直接调用加载函数,而是将参数拼接进shell命令,通过os.system间接触发torch.load。传统代码比对工具看不到相同函数调用,会直接漏报,但二者底层攻击语义完全一致,属于标准漏洞变体。
二、核心问题:漏洞变体检测三大技术难点
论文提炼出已知漏洞跨库搜寻场景下无法绕开的三类挑战,也是INFRASCOPE框架的设计目标:
- 漏洞语义抽象难
:同一漏洞在不同仓库的源码、调用图、模块结构完全不同,需要剥离表层代码语法,提取“可控输入→危险操作”的核心传播语义,不能依赖固定代码签名; - 长代码仓库上下文约束
:大模型上下文窗口有限,完整遍历数十万行AI框架会丢失历史审计信息,需要轻量化持久化存储审计进度,避免重复扫描; - 大模型幻觉误报难消除
:纯LLM推理容易编造不存在的污点链路,必须配套沙箱PoC动态验证,仅保留可复现、符合原始漏洞约束的风险路径。
三、INFRASCOPE多智能体框架完整技术架构
框架采用参考驱动三阶段流水线,由三类专用智能体协同工作,不依赖单一通用大模型,结合CodeQL静态分析做底层支撑,整体代码实现规模2.9万行,主干选用DeepSeek-V3.2模型。整体流程分为语义建模、分层审计、漏洞验证三大阶段。
3.1 阶段一:语义建模智能体——仓库&漏洞标准化抽象
该智能体是整个框架的基础,核心作用是把杂乱的开源代码、公开CVE文本转化为机器可对比的标准化语义描述,分为两条并行处理链路。
链路1:仓库语义建模
内置一套AI基础设施专属模块分类体系,将仓库代码自动拆分训练、推理、Agent工具、RAG检索、WebUI等功能模块,记录每个模块包含的文件、核心函数、模块间调用依赖关系,生成轻量化仓库摘要。摘要包含项目业务场景、目标用户、核心依赖,用于快速筛选和参考仓库功能近似的待审计仓库,跳过完全无关项目减少算力消耗。示例:处理ms-swift仓库时,智能体会自动划分WebUI交互模块、微调训练模块、适配器加载模块,记录训练模块依赖文件会调用权重加载接口,后续审计优先扫描该模块。
链路2:参考漏洞语义建模
输入已披露CVE完整信息(漏洞描述、攻击链路、受影响模块、PoC),剥离无关代码细节,提取四层核心语义特征:
攻击入口:WebUI/CLI/API等攻击者可控输入源; 传播路径:参数传递、命令拼接、配置转发等数据流方式; 危险汇点:torch.load、网络请求、SQL拼接、shell执行等高风险操作; 安全缺失:无输入校验、无序列化沙箱、无访问控制等防护缺陷。以LLaMA-Factory反序列化漏洞为例,建模后不会记录具体代码行数,仅留存“用户远程模型路径无校验→传递至加载函数→直接反序列化”的通用逻辑,可迁移到任意同类训练框架。
3.2 阶段二:分层审计智能体——优先级定向扫描与持久化内存管理
该智能体基于阶段一输出的双层语义,实现定向、轻量化仓库扫描,解决上下文窗口不足、无效扫描浪费算力两大问题。
1. 三级模块优先级调度机制
智能体给仓库所有模块划分扫描优先级,严格按顺序审计,优先覆盖高风险区域:
一级优先级:和参考漏洞受影响模块功能高度匹配的模块(嵌入相似度超过阈值0.8); 二级优先级:一级模块的直接调用者、被调用模块,覆盖封装、中转类代码(对应ms-swift命令中转类漏洞场景); 三级优先级:其余无关模块,仅高算力预算下才扫描。该机制大幅减少代码检索范围,避免Agent在日志、测试用例等无关文件消耗token。
2. 双层持久化审计内存
为解决大模型上下文丢失问题,设计独立于LLM会话的存储层,全程记录审计状态,会话压缩、重启不会丢失进度:
本地会话内存:记录已扫描文件、待核查污点候选、排除的无风险假设; 全局共享内存:存储同仓库历史数据流分析结果,多次审计复用,避免重复执行CodeQL调用图查询。
3. 迭代式有限轮次审计
单次仅执行一轮工具调用(读取文件、检索函数、查询调用图),更新候选漏洞列表后暂停,重新基于内存与漏洞语义构建新一轮prompt,限制单仓库最大迭代次数,控制算力开销。
3.3 阶段三:漏洞验证智能体——消除LLM幻觉,自动化PoC复现
审计智能体输出的候选漏洞存在大量误报,验证智能体通过静态校验+沙箱动态运行双重机制筛选真实变体,输出四类判定结果:可利用、条件可利用、仅依赖库风险、不可利用。
- 静态规则校验
:比对候选链路是否完全匹配参考漏洞语义,校验是否存在攻击者可控输入、完整可达汇点、缺失防护;过滤仅内部管理员可触发、属于产品原生功能的代码路径(如内置Jupyter执行器); - 隔离沙箱PoC生成
:对静态校验通过的候选,自动编写最小攻击脚本,在容器隔离环境运行,验证恶意输入能否抵达危险函数;若环境缺失依赖无法动态执行,则保留保守判定,不标记为确认漏洞; 输出完整审计证据:最终报告附带代码文件路径、完整数据流、PoC脚本、沙箱运行日志,满足安全人员人工复核需求。
同仓库多变体验证案例(LlamaIndex向量库SQL注入)参考漏洞CVE-2025-1793(Couchbase向量库):用户传入文档ID直接拼接SQL删除语句。INFRASCOPE基于该漏洞语义扫描同仓库DuckDB向量存储模块,识别出完全一致的拼接逻辑,自动生成删除语句注入PoC,确认CVE-2025-1750变体漏洞,证明框架可发现单一仓库跨模块同源漏洞。
四、框架实测效果与对比基准
4.1 评测数据集
参考漏洞集:8个真实公开CVE,覆盖命令注入、反序列化、SSRF、SQL注入、XXE、SSTI六大AI高频漏洞; 目标测试仓库:20个主流AI项目,分为Agent/RAG、模型训练推理两大类别,代码规模从1万至60万行不等。
4.2 与主流工具量化对比
对比基线选用纯Agent审计工具Claude Code、LLM增强SAST工具Vulnhalla,核心性能差异如下:
- 精准度优势
:INFRASCOPE检出24个真实0day漏洞,仅7个误报,精确率77.4%,远超Claude Code(39.1%)、Vulnhalla(38.5%); - 算力效率
:总token消耗仅为Claude Code的1/7,仅少4%真实漏洞检出,兼顾精度与成本;Vulnhalla算力更低,但召回率仅14.5%,大量变体漏报; - 实战产出
:全量测试+OpenClaw案例研究共挖掘20余个零日漏洞,11个获得项目维护者官方确认,4个分配正式CVE编号。
4.3 误报、漏报核心成因
误报来源(7例)
代码功能本身为授权用户提供执行能力(本地代码沙箱、管理员Web终端),不属于安全漏洞; 仅内部运维可控参数,无外部攻击者输入通道; LLM过度泛化识别查询接口,忽略内置过滤逻辑。
漏报来源(45例)
迭代轮次限制,WebUI多入口模块未完成全量扫描; 分布式模型加载逻辑跨数十个模块,模块匹配机制未覆盖全部链路; SSRF、向量库查询逻辑分散在独立插件,优先级排序靠后未遍历。
五、延伸案例:OpenClaw单仓库多漏洞挖掘
OpenClaw是热门智能Agent编排框架,代码结构特殊、模块相似度偏低,用于验证框架在单一项目内搜寻同源变体的能力。以一条命令允许列表绕过漏洞作为参考语义:shell脚本中双引号内反引号可逃逸过滤规则。INFRASCOPE以此为线索,在同一仓库内找到三类同源变体:
Shell初始化配置文件加载绕过; Discord机器人频道权限校验缺失导致命令注入; WebView前端桥接接口未校验来源,注入控制指令。该案例证明框架不仅支持跨仓库漏洞检索,也可用于已知漏洞披露后,在同一项目内全域排查同类逻辑缺陷。
六、论文创新点与行业落地价值
6.1 核心技术创新
首次完成大规模AI基础设施漏洞变体测绘,量化证明跨仓库同源漏洞为系统性安全风险; 提出参考驱动漏洞语义匹配思路,脱离代码文本比对,以攻击传播逻辑为核心检索线索; 三智能体分层协同架构,分别解决语义抽象、大规模代码定向扫描、LLM幻觉三大痛点; 配套AI专属模块分类体系,针对微调、推理、Agent、RAG等场景优化仓库拆分与优先级调度。
6.2 工程落地价值
- 漏洞披露后的快速自查
:厂商爆出CVE后,运维/安全团队可快速检索内部自研、依赖的同类AI框架,批量排查变体,避免批量漏洞爆发; 开源LLMOps供应链审计:批量扫描GitHub同类AI项目,提前挖掘未公开0day漏洞; 弥补传统SAST短板:传统静态规则无法覆盖重构型漏洞,INFRASCOPE以真实漏洞为模板,适配快速迭代的AI开源生态。
七、研究局限与未来拓展方向
现有局限
模块分类体系为AI基础设施定制,直接迁移到后端、移动端等其他软件领域效果下降; 扫描性能依赖迭代轮次预算,大型多入口Agent框架存在漏报; PoC动态验证依赖容器环境,部分复杂分布式AI代码无法自动化复现,需人工辅助判定。
未来研究方向
自动化构建通用软件模块分类,脱离人工定义分类表,适配全品类代码仓库; 优化多轮记忆与上下文压缩算法,提升大型仓库完整覆盖率,降低漏报; 框架通用化,拓展至Web后端、物联网固件等存在大量重构代码的软件生态; 结合漏洞补丁语义,实现漏洞变体+未修复老漏洞双维度检索。
八、总结
随着AI基础设施开源项目快速迭代,仅依靠代码克隆扫描、通用静态规则无法应对重构产生的漏洞变体风险。本文提出的INFRASCOPE多智能体框架,通过提取已知漏洞的攻击语义、分层定向审计、沙箱验证三重机制,实现跨仓库、跨模块同源漏洞自动化挖掘。实测证明该方案在精度、算力开销上优于现有LLM审计工具,可为LLMOps安全、AI开源供应链审计提供全新自动化解决方案,填补了“漏洞披露后批量排查同类变体”的技术空白。
夜雨聆风