乐于分享
好东西不私藏

基于持续学习的软件漏洞预测增强:面向时序大模型微调的混合置信感知选择性重放方法

基于持续学习的软件漏洞预测增强:面向时序大模型微调的混合置信感知选择性重放方法

# 基于持续学习的软件漏洞预测增强:面向时序大模型微调的混合置信感知选择性重放方法

**文献来源**:arXiv:2602.23834 [cs.CR],2026年2月27日

https://arxiv.org/pdf/2602.23834

**作者背景**:研究团队来自英国诺丁汉大学计算机学院、美国北亚利桑那大学信息与计算学院、中国宁波诺丁汉大学计算机学院,聚焦代码安全、持续学习与大语言模型应用研究

## 一、研究背景与核心问题

当前大语言模型(LLM)已广泛用于源代码漏洞检测,但主流评估普遍采用**随机训练-测试划分**,完全忽略时间维度,会引入严重时序数据泄露,大幅高估模型在真实场景的泛化能力。实际部署中,代码库持续迭代,漏洞分布随时间发生**时序分布漂移**与**概念漂移**,静态离线训练模型会快速失效。
持续学习(CL)旨在让模型增量学习新数据同时保留旧知识,其核心挑战是**灾难性遗忘**——模型适配新漏洞模式后,对历史漏洞的检测能力显著下降。此外,漏洞检测场景还存在两大痛点:
  1. 漏洞与修复代码的**类别极度不平衡**,不同时段差异显著;
  2. 全量累积训练计算成本极高,难以适配单GPU环境的高频更新需求。
本文将时序漏洞检测定义为**函数级二分类任务**(漏洞/修复),基于2018-2024年CVE关联数据集构建双月时间窗口,以微软phi-2大模型+LoRA高效微调为基座,系统探究持续学习策略在时序漏洞检测中的有效性。

## 二、核心技术方案:Hybrid-CASR混合置信感知选择性重放

### 1. 基础实验设定

  • 基座模型:microsoft/phi-2(2.7B参数解码器大模型),适配单GPU时序训练;
  • 高效微调:LoRA(秩r=16,缩放因子α=32),冻结基座参数,仅优化低秩适配器;
  • 数据集:CVEfixes衍生数据集,覆盖C/C++为主的漏洞函数,按CVE披露时间戳标注,严格去重避免泄露;
  • 评估协议:前向链式时序评估(仅用t时刻数据预测t+1时刻漏洞)+后向保留评估(IBR@k,衡量旧知识遗忘程度)。

### 2. 传统重放方法的缺陷

  • 均匀重放(Replay-1P/3P):随机采样历史样本,低效且易被简单样本占据缓存,忽略难例;
  • 纯置信感知重放(CASR):优先选择模型不确定样本,但漏洞数据类别失衡,会导致缓存中修复样本(多数类)过多,丢失 minority 漏洞模式;
  • 累积训练:全量复用历史数据,性能提升有限但计算成本暴涨15.9倍;
  • 正交正则化(OLoRA):约束参数更新方向,过度限制模型适配新漏洞。

### 3. Hybrid-CASR核心设计与技术细节

Hybrid-CASR是**置信感知选择+类别均衡**的双机制重放策略,同时解决灾难性遗忘、类别失衡与计算效率三大问题,核心流程分四步:

#### (1)类别均衡候选集构建

将重放缓存按**漏洞(VULNERABLE)/修复(FIXED)** 均等划分,强制保证两类样本比例接近1:1,避免多数类碾压。
> 案例:缓存总容量1000条,强制分配500条给漏洞样本、500条给修复样本,杜绝传统CASR中修复样本占比超80%的问题。

#### (2)置信感知难例筛选

对每个类别内部,按模型预测置信度排序,优先保留**低置信样本**(最大类别概率<0.7)与**误分类样本**,聚焦模型决策边界,精准对抗遗忘。
> 案例:某缓冲区溢出漏洞函数,模型预测漏洞概率0.62,低于阈值0.7,判定为高价值难例,优先存入缓存;某简单语法修复函数预测概率0.95,直接排除。

#### (3)混合采样比例分配

缓存70%容量用于存储上述置信筛选的难例,30%容量均匀随机采样,兼顾**针对性抗遗忘**与**全局覆盖性**,避免过拟合局部难例。

#### (4)增量缓存更新

采用时序FIFO策略,新窗口数据替换最早过期样本,保持缓存时效性,适配持续漂移的漏洞分布。

### 4. 对比方法覆盖范围

本文共评估8种持续学习策略
  • 基准:零样本、仅窗口训练、累积训练;
  • 重放类:Replay-1P(近1窗均匀重放)、Replay-3P(近3窗均匀重放)、CASR、Hybrid-CASR;
  • 正则化类:LB-CL(类别加权损失)、OLoRA(正交约束LoRA)。

## 三、关键技术细节与案例解析

### 1. 时序评估协议:杜绝数据泄露的核心设计

传统随机划分会用未来漏洞训练模型,本文采用**严格前向链式**:
  • 训练:仅使用窗口Wt数据;
  • 测试:仅在Wt+1评估,完全模拟真实部署中“用历史知识预测未来漏洞”的场景;
  • 去重:函数级哈希去重,确保同一函数不会同时出现在训练与未来测试集。
> 案例:2022年双月窗口Wt包含Log4j漏洞样本,模型仅用这批数据训练,测试2022下一个双月窗口Wt+1的新Spring框架漏洞,无任何未来信息泄露,评估结果更可信。

### 2. 灾难性遗忘量化:IBR指标的实际意义

IBR@k(Immediate Backward Retention)衡量训练到Wt后,对Wt−k窗口的检测能力保留程度,直接反映遗忘程度。
  • Hybrid-CASR:IBR@1=0.741,6窗滞后衰减仅4.2%;
  • 仅窗口训练:IBR@1=0.713,虽衰减低但前向性能差;
  • 累积训练:IBR@1=0.661,全量记忆却绝对性能更低。
> 案例:模型用2023年双月窗口更新后,检测2023上一个窗口的UAF漏洞,Hybrid-CASR保留74.1%能力,而OLoRA仅保留61.2%,大量历史漏洞模式被遗忘。

### 3. 类别失衡应对:均衡重放的关键价值

漏洞数据在不同窗口占比15%-60%,纯置信筛选会偏向多数类。Hybrid-CASR强制类别均衡,让模型持续记住 minority 漏洞类型。
> 案例:某窗口漏洞样本仅占20%,传统CASR缓存中漏洞:修复≈1:4,模型对越权访问、条件竞争等稀有漏洞检测失效;Hybrid-CASR保持1:1,稀有漏洞召回率提升12%。

### 4. 计算效率优化:精度-成本的最优权衡

  • 仅窗口训练:每窗8.7分钟,Macro-F1=0.651;
  • Hybrid-CASR:每窗7.2分钟(快17%),Macro-F1=0.667,F1/分钟效率提升24%;
  • 累积训练:每窗138.2分钟,仅提升至0.661,性价比极低。
> 案例:单A100 GPU每周更新模型,仅窗口训练需8.7分钟/次,Hybrid-CASR仅7.2分钟且性能更好,累积训练需2.3小时/次,无法工程落地。

## 四、实验结果与核心发现

### 1. 时序窗口粒度不决定上限,只影响稳定性

1-12个月不同窗口粒度的平均Macro-F1仅在0.651-0.669间浮动:
  • 细粒度(1月):方差大,易受漏洞披露波动影响;
  • 中粒度(3月/季度):性能最优(0.667)且稳定性强;
  • 粗粒度(12月):方差最小,但丢失短期漂移细节。
结论:企业可按资源选择更新频率,无需追求极致细粒度。

### 2. Hybrid-CASR实现性能-稳定性-效率最优

  • 前向性能:双月窗口Macro-F1=0.667,较仅窗口基准+0.016,统计显著(p=0.026);
  • 抗遗忘:IBR@1=0.741,衰减仅4.2%,兼顾可塑性与稳定性;
  • 极端漂移鲁棒性:2019年处理器漏洞、2020年疫情新攻击面窗口,Hybrid-CASR较基准+0.059~+0.064,远优于其他方法。

### 3. 持续学习策略的工程取舍

  • 重放>正则化:重放类方法全面优于OLoRA、LB-CL,更适配漏洞漂移场景;
  • 短窗口重放>长窗口重放:Replay-1P优于Replay-3P,过多历史数据会拖累新漏洞适配;
  • 选择性重放>>全量累积:精准记忆比全量记忆更高效。

## 五、工程落地与未来方向

### 1. 落地建议

  • 基座:phi-2+LoRA,单A100即可部署,成本可控;
  • 策略:优先采用Hybrid-CASR,平衡精度、抗遗忘与效率;
  • 窗口:推荐季度更新,兼顾性能与运维成本;
  • 互补:模型检测结果必须配合人工审核,应对极端概念漂移。

### 2. 未来研究

  • 自适应窗口:基于漂移检测信号动态调整窗口大小;
  • 进阶采样:融合梯度重要性、多样性感知的选择策略;
  • 零日漏洞:设计跨家族评估协议,逼近真实未知漏洞场景。

## 六、总结

本文首次在**长时序、非平稳**场景下系统评估LLM漏洞检测的持续学习方案,提出的Hybrid-CASR通过**置信感知难例筛选+类别均衡缓存**,有效缓解灾难性遗忘与类别失衡,在单GPU环境实现精度-效率最优权衡。实验证明,持续学习能显著提升时序漏洞检测的稳定性与实用性,为工业界长期部署LLM漏洞检测器提供了可复现的技术框架。