漏洞检测的三大瓶颈:为什么AI工具准确率还不到60%

漏洞检测的三大瓶颈：为什么AI工具准确率还不到60%

最近几篇安全领域的研究论文，揭示了当前漏洞检测工具的几个真实困境。这些研究来自清华、北航、中科院等团队，结果有点让人意外——最好的工具，准确率也不到一半。

问题一：单方向测试，漏掉大量深层漏洞

Wi-Fi网卡（NIC）的漏洞检测是个典型例子。现有的Fuzzing工具，要么把自己当成无线终端（STA），要么当成接入点（AP），只测一个方向的数据收发。

但清华团队的研究发现，真正危险的漏洞往往藏在“收发交互”的过程中。比如一个叫Kr00k的漏洞，影响了数十亿台设备，攻击者能直接解密敏感数据。这种漏洞需要同时操控发送和接收的帧序列才能触发。

他们提出的DualFuzz框架，同时测试传输和接收两个方向。结果在8款主流Wi-Fi网卡上发现了21个未知漏洞，其中7个已分配CVE编号。对比现有工具，漏洞发现数量提升了75%到250%。

关键点：单方向测试就像只检查门锁不检查窗户，攻击者总能找到交互逻辑的盲区。

很多深度学习模型能告诉你“这段代码有漏洞”，但说不清漏洞在哪、为什么有、怎么修。

浙大和加拿大York大学的研究团队做了个实验：让LLM同时完成检测和解释两个任务。在简单数据集上，检测F1值高达98.8%，效果很好。但换到更真实的复杂数据集PrimeVul，F1直接跌到39.8%。

更关键的是解释质量。他们用三个维度评估：事实正确性（Accuracy）、清晰易懂（Clarity）、可操作性（Actionability）。结果清晰度高达96.7%，但事实正确性只有57.4%。也就是说，AI能写出看起来很专业的分析，但有一半可能是错的。

关键点：不准确的解释比不解释更危险——开发者可能被误导，做出错误的修复决策。

这是中科院信工所等机构做的大规模研究。他们构建了1128个真实CVE漏洞的基准数据集，评估了12个代表性工具。

结果：最好的工具准确率只有44.9%。即使把5个工具集成投票，准确率仍然低于60%。

问题出在哪？研究发现三大瓶颈：

关键点：连哪个版本有漏洞都确定不了，补丁部署和风险评估就无从谈起。

这三项研究指向同一个问题：当前漏洞检测工具，在真实场景下远未达到可靠水平。

DualFuzz证明了双向测试的必要性，LLMVulExp揭示了检测与解释的协同价值，而那篇版本识别的研究直接给出了60%的天花板。

个人觉得，未来突破的方向可能在于：把检测从“语法匹配”升级到“语义验证”，同时让工具学会解释自己的判断依据。毕竟，安全不是猜对就行，而是要让人信服。