AI基础设施变体漏洞自动检测技术

AI基础设施漏洞变体自动检测技术解读——基于INFRASCOPE多智能体审计框架

文献基础信息

文献来源：arXiv预印论文《Hunting Vulnerability Variants in AI Infra: Measurement and Reference-Driven Detection》，编号arXiv:2605.20051，发布时间2026年5月19日，方向为计算机安全（cs.CR）。

作者机构背景

本文由三方机构联合完成，各机构研究方向与贡献划分如下：

香港大学
：核心牵头单位，负责整体研究设计、大规模AI基础设施生态测绘、INFRASCOPE框架底层架构实现、漏洞语义建模核心算法开发，深耕软件安全、大模型代码分析、AI供应链安全领域，拥有成熟开源代码安全测量与静态分析研究积累。
腾讯安全研究院
：产业侧合作机构，提供海量AI开源仓库样本、真实漏洞披露数据集、工程落地优化方案，主导多智能体工具链适配、工业级代码审计流程打磨，长期面向LLMOps、Agent框架开展安全攻防研究。
东南大学
：理论辅助单位，负责漏洞传播语义抽象、PoC自动化验证逻辑、框架评估指标体系设计，专注程序分析、污点传播、大模型漏洞推理理论研究。

一、研究背景：AI基础设施漏洞变体的系统性风险

1.1 AI基础设施生态现状

AI基础设施（AI Infra）是支撑模型微调、推理服务、智能Agent编排的通用代码层，涵盖LLaMA-Factory、ms-swift、AutoGPT、LangChain等海量开源项目。2023-2026年该生态爆发式扩张，仅论文采集的688个GitHub仓库中，Agent编排类项目占比超54%，Python为绝对主流开发语言。

同类AI项目会复用高度相似业务流程：模型加载、远程权重拉取、WebUI参数配置、工具调用、向量库查询等逻辑在数十个框架中重复实现，但代码实现方式、模块划分、调用链路完全不同。开发者不会直接复制代码，而是基于相同业务需求重构逻辑，这催生变体漏洞——底层攻击触发逻辑一致，但代码结构、调用路径存在差异的同源漏洞。

1.2 传统检测工具的核心短板

现有漏洞扫描、代码克隆检测方案无法适配AI基础设施场景，存在三大硬缺陷：

依赖代码文本相似度匹配
：仅能识别复制粘贴的重复代码，对重构、跨模块、命令中转传播的漏洞完全失效；
缺少已知漏洞语义迁移能力
：SAST静态工具基于固定CWE规则扫描，无法以已披露CVE为线索，在同类新项目中搜寻同逻辑漏洞；
大模型独立审计存在幻觉、上下文限制
：通用代码Agent单次无法遍历大型仓库，长代码分析易丢失关键污点链路，且缺少自动化验证机制，误报极高。

1.3 实测数据佐证风险普遍性

研究团队完成行业首个大规模AI基础设施漏洞测绘，采集688个开源仓库、251条公开漏洞记录（232条含完整攻击触发流程），得到两大核心结论：

同类AI项目功能模块高度重叠：7个主流训练框架README语义相似度中位数达0.88，共享模型断点、分布式训练、WebUI等核心模块；
漏洞触发模式跨仓库高频复用：远程SSRF、模型反序列化、命令注入、SQL注入四类漏洞在4-7个独立项目重复出现，并非单一项目偶发缺陷。

典型漏洞变体案例（跨仓库RCE）参考漏洞CVE-2025-53002（LLaMA-Factory）：WebUI接收用户可控适配器文件路径，直接传入torch.load反序列化，攻击者托管恶意权重文件即可远程执行代码。变体漏洞（ms-swift仓库GHSA漏洞）：同样是WebUI传入用户自定义模型路径，但代码未直接调用加载函数，而是将参数拼接进shell命令，通过os.system间接触发torch.load。传统代码比对工具看不到相同函数调用，会直接漏报，但二者底层攻击语义完全一致，属于标准漏洞变体。

二、核心问题：漏洞变体检测三大技术难点

论文提炼出已知漏洞跨库搜寻场景下无法绕开的三类挑战，也是INFRASCOPE框架的设计目标：

漏洞语义抽象难
：同一漏洞在不同仓库的源码、调用图、模块结构完全不同，需要剥离表层代码语法，提取“可控输入→危险操作”的核心传播语义，不能依赖固定代码签名；
长代码仓库上下文约束
：大模型上下文窗口有限，完整遍历数十万行AI框架会丢失历史审计信息，需要轻量化持久化存储审计进度，避免重复扫描；
大模型幻觉误报难消除
：纯LLM推理容易编造不存在的污点链路，必须配套沙箱PoC动态验证，仅保留可复现、符合原始漏洞约束的风险路径。

三、INFRASCOPE多智能体框架完整技术架构

框架采用参考驱动三阶段流水线，由三类专用智能体协同工作，不依赖单一通用大模型，结合CodeQL静态分析做底层支撑，整体代码实现规模2.9万行，主干选用DeepSeek-V3.2模型。整体流程分为语义建模、分层审计、漏洞验证三大阶段。

3.1 阶段一：语义建模智能体——仓库&漏洞标准化抽象

该智能体是整个框架的基础，核心作用是把杂乱的开源代码、公开CVE文本转化为机器可对比的标准化语义描述，分为两条并行处理链路。

链路1：仓库语义建模

内置一套AI基础设施专属模块分类体系，将仓库代码自动拆分训练、推理、Agent工具、RAG检索、WebUI等功能模块，记录每个模块包含的文件、核心函数、模块间调用依赖关系，生成轻量化仓库摘要。摘要包含项目业务场景、目标用户、核心依赖，用于快速筛选和参考仓库功能近似的待审计仓库，跳过完全无关项目减少算力消耗。示例：处理ms-swift仓库时，智能体会自动划分WebUI交互模块、微调训练模块、适配器加载模块，记录训练模块依赖文件会调用权重加载接口，后续审计优先扫描该模块。

链路2：参考漏洞语义建模

输入已披露CVE完整信息（漏洞描述、攻击链路、受影响模块、PoC），剥离无关代码细节，提取四层核心语义特征：

攻击入口：WebUI/CLI/API等攻击者可控输入源；
传播路径：参数传递、命令拼接、配置转发等数据流方式；
危险汇点：torch.load、网络请求、SQL拼接、shell执行等高风险操作；
安全缺失：无输入校验、无序列化沙箱、无访问控制等防护缺陷。以LLaMA-Factory反序列化漏洞为例，建模后不会记录具体代码行数，仅留存“用户远程模型路径无校验→传递至加载函数→直接反序列化”的通用逻辑，可迁移到任意同类训练框架。

3.2 阶段二：分层审计智能体——优先级定向扫描与持久化内存管理

该智能体基于阶段一输出的双层语义，实现定向、轻量化仓库扫描，解决上下文窗口不足、无效扫描浪费算力两大问题。

1. 三级模块优先级调度机制

智能体给仓库所有模块划分扫描优先级，严格按顺序审计，优先覆盖高风险区域：

一级优先级：和参考漏洞受影响模块功能高度匹配的模块（嵌入相似度超过阈值0.8）；
二级优先级：一级模块的直接调用者、被调用模块，覆盖封装、中转类代码（对应ms-swift命令中转类漏洞场景）；
三级优先级：其余无关模块，仅高算力预算下才扫描。该机制大幅减少代码检索范围，避免Agent在日志、测试用例等无关文件消耗token。

2. 双层持久化审计内存

为解决大模型上下文丢失问题，设计独立于LLM会话的存储层，全程记录审计状态，会话压缩、重启不会丢失进度：

本地会话内存：记录已扫描文件、待核查污点候选、排除的无风险假设；
全局共享内存：存储同仓库历史数据流分析结果，多次审计复用，避免重复执行CodeQL调用图查询。

3. 迭代式有限轮次审计

单次仅执行一轮工具调用（读取文件、检索函数、查询调用图），更新候选漏洞列表后暂停，重新基于内存与漏洞语义构建新一轮prompt，限制单仓库最大迭代次数，控制算力开销。

3.3 阶段三：漏洞验证智能体——消除LLM幻觉，自动化PoC复现

审计智能体输出的候选漏洞存在大量误报，验证智能体通过静态校验+沙箱动态运行双重机制筛选真实变体，输出四类判定结果：可利用、条件可利用、仅依赖库风险、不可利用。

静态规则校验
：比对候选链路是否完全匹配参考漏洞语义，校验是否存在攻击者可控输入、完整可达汇点、缺失防护；过滤仅内部管理员可触发、属于产品原生功能的代码路径（如内置Jupyter执行器）；
隔离沙箱PoC生成
：对静态校验通过的候选，自动编写最小攻击脚本，在容器隔离环境运行，验证恶意输入能否抵达危险函数；若环境缺失依赖无法动态执行，则保留保守判定，不标记为确认漏洞；
输出完整审计证据：最终报告附带代码文件路径、完整数据流、PoC脚本、沙箱运行日志，满足安全人员人工复核需求。

同仓库多变体验证案例（LlamaIndex向量库SQL注入）参考漏洞CVE-2025-1793（Couchbase向量库）：用户传入文档ID直接拼接SQL删除语句。INFRASCOPE基于该漏洞语义扫描同仓库DuckDB向量存储模块，识别出完全一致的拼接逻辑，自动生成删除语句注入PoC，确认CVE-2025-1750变体漏洞，证明框架可发现单一仓库跨模块同源漏洞。

四、框架实测效果与对比基准

4.1 评测数据集

参考漏洞集：8个真实公开CVE，覆盖命令注入、反序列化、SSRF、SQL注入、XXE、SSTI六大AI高频漏洞；
目标测试仓库：20个主流AI项目，分为Agent/RAG、模型训练推理两大类别，代码规模从1万至60万行不等。

4.2 与主流工具量化对比

对比基线选用纯Agent审计工具Claude Code、LLM增强SAST工具Vulnhalla，核心性能差异如下：

精准度优势
：INFRASCOPE检出24个真实0day漏洞，仅7个误报，精确率77.4%，远超Claude Code（39.1%）、Vulnhalla（38.5%）；
算力效率
：总token消耗仅为Claude Code的1/7，仅少4%真实漏洞检出，兼顾精度与成本；Vulnhalla算力更低，但召回率仅14.5%，大量变体漏报；
实战产出
：全量测试+OpenClaw案例研究共挖掘20余个零日漏洞，11个获得项目维护者官方确认，4个分配正式CVE编号。

4.3 误报、漏报核心成因

误报来源（7例）

代码功能本身为授权用户提供执行能力（本地代码沙箱、管理员Web终端），不属于安全漏洞；
仅内部运维可控参数，无外部攻击者输入通道；
LLM过度泛化识别查询接口，忽略内置过滤逻辑。

漏报来源（45例）

迭代轮次限制，WebUI多入口模块未完成全量扫描；
分布式模型加载逻辑跨数十个模块，模块匹配机制未覆盖全部链路；
SSRF、向量库查询逻辑分散在独立插件，优先级排序靠后未遍历。

五、延伸案例：OpenClaw单仓库多漏洞挖掘

OpenClaw是热门智能Agent编排框架，代码结构特殊、模块相似度偏低，用于验证框架在单一项目内搜寻同源变体的能力。以一条命令允许列表绕过漏洞作为参考语义：shell脚本中双引号内反引号可逃逸过滤规则。INFRASCOPE以此为线索，在同一仓库内找到三类同源变体：

Shell初始化配置文件加载绕过；
Discord机器人频道权限校验缺失导致命令注入；
WebView前端桥接接口未校验来源，注入控制指令。该案例证明框架不仅支持跨仓库漏洞检索，也可用于已知漏洞披露后，在同一项目内全域排查同类逻辑缺陷。

六、论文创新点与行业落地价值

6.1 核心技术创新

首次完成大规模AI基础设施漏洞变体测绘，量化证明跨仓库同源漏洞为系统性安全风险；
提出参考驱动漏洞语义匹配思路，脱离代码文本比对，以攻击传播逻辑为核心检索线索；
三智能体分层协同架构，分别解决语义抽象、大规模代码定向扫描、LLM幻觉三大痛点；
配套AI专属模块分类体系，针对微调、推理、Agent、RAG等场景优化仓库拆分与优先级调度。

6.2 工程落地价值

漏洞披露后的快速自查
：厂商爆出CVE后，运维/安全团队可快速检索内部自研、依赖的同类AI框架，批量排查变体，避免批量漏洞爆发；
开源LLMOps供应链审计：批量扫描GitHub同类AI项目，提前挖掘未公开0day漏洞；
弥补传统SAST短板：传统静态规则无法覆盖重构型漏洞，INFRASCOPE以真实漏洞为模板，适配快速迭代的AI开源生态。

七、研究局限与未来拓展方向

现有局限

模块分类体系为AI基础设施定制，直接迁移到后端、移动端等其他软件领域效果下降；
扫描性能依赖迭代轮次预算，大型多入口Agent框架存在漏报；
PoC动态验证依赖容器环境，部分复杂分布式AI代码无法自动化复现，需人工辅助判定。

未来研究方向

自动化构建通用软件模块分类，脱离人工定义分类表，适配全品类代码仓库；
优化多轮记忆与上下文压缩算法，提升大型仓库完整覆盖率，降低漏报；
框架通用化，拓展至Web后端、物联网固件等存在大量重构代码的软件生态；
结合漏洞补丁语义，实现漏洞变体+未修复老漏洞双维度检索。

八、总结

随着AI基础设施开源项目快速迭代，仅依靠代码克隆扫描、通用静态规则无法应对重构产生的漏洞变体风险。本文提出的INFRASCOPE多智能体框架，通过提取已知漏洞的攻击语义、分层定向审计、沙箱验证三重机制，实现跨仓库、跨模块同源漏洞自动化挖掘。实测证明该方案在精度、算力开销上优于现有LLM审计工具，可为LLMOps安全、AI开源供应链审计提供全新自动化解决方案，填补了“漏洞披露后批量排查同类变体”的技术空白。