基于持续学习的软件漏洞预测增强:面向时序大模型微调的混合置信感知选择性重放方法

# 基于持续学习的软件漏洞预测增强：面向时序大模型微调的混合置信感知选择性重放方法

**文献来源**：arXiv:2602.23834 [cs.CR]，2026年2月27日

https://arxiv.org/pdf/2602.23834

**作者背景**：研究团队来自英国诺丁汉大学计算机学院、美国北亚利桑那大学信息与计算学院、中国宁波诺丁汉大学计算机学院，聚焦代码安全、持续学习与大语言模型应用研究

## 一、研究背景与核心问题

当前大语言模型（LLM）已广泛用于源代码漏洞检测，但主流评估普遍采用**随机训练-测试划分**，完全忽略时间维度，会引入严重时序数据泄露，大幅高估模型在真实场景的泛化能力。实际部署中，代码库持续迭代，漏洞分布随时间发生**时序分布漂移**与**概念漂移**，静态离线训练模型会快速失效。

持续学习（CL）旨在让模型增量学习新数据同时保留旧知识，其核心挑战是**灾难性遗忘**——模型适配新漏洞模式后，对历史漏洞的检测能力显著下降。此外，漏洞检测场景还存在两大痛点：

漏洞与修复代码的**类别极度不平衡**，不同时段差异显著；
全量累积训练计算成本极高，难以适配单GPU环境的高频更新需求。

本文将时序漏洞检测定义为**函数级二分类任务**（漏洞/修复），基于2018-2024年CVE关联数据集构建双月时间窗口，以微软phi-2大模型+LoRA高效微调为基座，系统探究持续学习策略在时序漏洞检测中的有效性。

## 二、核心技术方案：Hybrid-CASR混合置信感知选择性重放

### 1. 基础实验设定

基座模型：microsoft/phi-2（2.7B参数解码器大模型），适配单GPU时序训练；
高效微调：LoRA（秩r=16，缩放因子α=32），冻结基座参数，仅优化低秩适配器；
数据集：CVEfixes衍生数据集，覆盖C/C++为主的漏洞函数，按CVE披露时间戳标注，严格去重避免泄露；
评估协议：前向链式时序评估（仅用t时刻数据预测t+1时刻漏洞）+后向保留评估（IBR@k，衡量旧知识遗忘程度）。

### 2. 传统重放方法的缺陷

均匀重放（Replay-1P/3P）：随机采样历史样本，低效且易被简单样本占据缓存，忽略难例；
纯置信感知重放（CASR）：优先选择模型不确定样本，但漏洞数据类别失衡，会导致缓存中修复样本（多数类）过多，丢失 minority 漏洞模式；
累积训练：全量复用历史数据，性能提升有限但计算成本暴涨15.9倍；
正交正则化（OLoRA）：约束参数更新方向，过度限制模型适配新漏洞。

### 3. Hybrid-CASR核心设计与技术细节

Hybrid-CASR是**置信感知选择+类别均衡**的双机制重放策略，同时解决灾难性遗忘、类别失衡与计算效率三大问题，核心流程分四步：

#### （1）类别均衡候选集构建

将重放缓存按**漏洞(VULNERABLE)/修复(FIXED)** 均等划分，强制保证两类样本比例接近1:1，避免多数类碾压。

> 案例：缓存总容量1000条，强制分配500条给漏洞样本、500条给修复样本，杜绝传统CASR中修复样本占比超80%的问题。

#### （2）置信感知难例筛选

对每个类别内部，按模型预测置信度排序，优先保留**低置信样本**（最大类别概率<0.7）与**误分类样本**，聚焦模型决策边界，精准对抗遗忘。

> 案例：某缓冲区溢出漏洞函数，模型预测漏洞概率0.62，低于阈值0.7，判定为高价值难例，优先存入缓存；某简单语法修复函数预测概率0.95，直接排除。

#### （3）混合采样比例分配

缓存70%容量用于存储上述置信筛选的难例，30%容量均匀随机采样，兼顾**针对性抗遗忘**与**全局覆盖性**，避免过拟合局部难例。

#### （4）增量缓存更新

采用时序FIFO策略，新窗口数据替换最早过期样本，保持缓存时效性，适配持续漂移的漏洞分布。

### 4. 对比方法覆盖范围

本文共评估8种持续学习策略：

基准：零样本、仅窗口训练、累积训练；
重放类：Replay-1P（近1窗均匀重放）、Replay-3P（近3窗均匀重放）、CASR、Hybrid-CASR；
正则化类：LB-CL（类别加权损失）、OLoRA（正交约束LoRA）。

## 三、关键技术细节与案例解析

### 1. 时序评估协议：杜绝数据泄露的核心设计

传统随机划分会用未来漏洞训练模型，本文采用**严格前向链式**：

训练：仅使用窗口Wt数据；
测试：仅在Wt+1评估，完全模拟真实部署中“用历史知识预测未来漏洞”的场景；
去重：函数级哈希去重，确保同一函数不会同时出现在训练与未来测试集。

> 案例：2022年双月窗口Wt包含Log4j漏洞样本，模型仅用这批数据训练，测试2022下一个双月窗口Wt+1的新Spring框架漏洞，无任何未来信息泄露，评估结果更可信。

### 2. 灾难性遗忘量化：IBR指标的实际意义

IBR@k（Immediate Backward Retention）衡量训练到Wt后，对Wt−k窗口的检测能力保留程度，直接反映遗忘程度。

Hybrid-CASR：IBR@1=0.741，6窗滞后衰减仅4.2%；
仅窗口训练：IBR@1=0.713，虽衰减低但前向性能差；
累积训练：IBR@1=0.661，全量记忆却绝对性能更低。

> 案例：模型用2023年双月窗口更新后，检测2023上一个窗口的UAF漏洞，Hybrid-CASR保留74.1%能力，而OLoRA仅保留61.2%，大量历史漏洞模式被遗忘。

### 3. 类别失衡应对：均衡重放的关键价值

漏洞数据在不同窗口占比15%-60%，纯置信筛选会偏向多数类。Hybrid-CASR强制类别均衡，让模型持续记住 minority 漏洞类型。

> 案例：某窗口漏洞样本仅占20%，传统CASR缓存中漏洞:修复≈1:4，模型对越权访问、条件竞争等稀有漏洞检测失效；Hybrid-CASR保持1:1，稀有漏洞召回率提升12%。

### 4. 计算效率优化：精度-成本的最优权衡

仅窗口训练：每窗8.7分钟，Macro-F1=0.651；
Hybrid-CASR：每窗7.2分钟（快17%），Macro-F1=0.667，F1/分钟效率提升24%；
累积训练：每窗138.2分钟，仅提升至0.661，性价比极低。

> 案例：单A100 GPU每周更新模型，仅窗口训练需8.7分钟/次，Hybrid-CASR仅7.2分钟且性能更好，累积训练需2.3小时/次，无法工程落地。

## 四、实验结果与核心发现

### 1. 时序窗口粒度不决定上限，只影响稳定性

1-12个月不同窗口粒度的平均Macro-F1仅在0.651-0.669间浮动：

细粒度（1月）：方差大，易受漏洞披露波动影响；
中粒度（3月/季度）：性能最优（0.667）且稳定性强；
粗粒度（12月）：方差最小，但丢失短期漂移细节。

结论：企业可按资源选择更新频率，无需追求极致细粒度。

### 2. Hybrid-CASR实现性能-稳定性-效率最优

前向性能：双月窗口Macro-F1=0.667，较仅窗口基准+0.016，统计显著（p=0.026）；
抗遗忘：IBR@1=0.741，衰减仅4.2%，兼顾可塑性与稳定性；
极端漂移鲁棒性：2019年处理器漏洞、2020年疫情新攻击面窗口，Hybrid-CASR较基准+0.059~+0.064，远优于其他方法。

### 3. 持续学习策略的工程取舍

重放>正则化：重放类方法全面优于OLoRA、LB-CL，更适配漏洞漂移场景；
短窗口重放>长窗口重放：Replay-1P优于Replay-3P，过多历史数据会拖累新漏洞适配；
选择性重放>>全量累积：精准记忆比全量记忆更高效。

## 五、工程落地与未来方向

### 1. 落地建议

基座：phi-2+LoRA，单A100即可部署，成本可控；
策略：优先采用Hybrid-CASR，平衡精度、抗遗忘与效率；
窗口：推荐季度更新，兼顾性能与运维成本；
互补：模型检测结果必须配合人工审核，应对极端概念漂移。

### 2. 未来研究

自适应窗口：基于漂移检测信号动态调整窗口大小；
进阶采样：融合梯度重要性、多样性感知的选择策略；
零日漏洞：设计跨家族评估协议，逼近真实未知漏洞场景。

## 六、总结

本文首次在**长时序、非平稳**场景下系统评估LLM漏洞检测的持续学习方案，提出的Hybrid-CASR通过**置信感知难例筛选+类别均衡缓存**，有效缓解灾难性遗忘与类别失衡，在单GPU环境实现精度-效率最优权衡。实验证明，持续学习能显著提升时序漏洞检测的稳定性与实用性，为工业界长期部署LLM漏洞检测器提供了可复现的技术框架。