基于大模型的嵌入式软件代码漏洞自动挖掘技术研究与平台
所属单位:中国科学院软件研究所
所 在 地 :北京
技术领域:新一代信息技术
应用领域:该成果可应用于嵌入式软件代码生成、单元测试、漏洞挖掘与修复等场景
知识产权:软件著作权
技术成熟度:中试
项目简介
本项目旨在利用大模型的高效知识总结与学习推理能力,开展嵌入式软件开发与管理方法研究,支撑软件代码生成、测试等任务,预防和减少软件缺陷,提升开发和测试效率。项目聚焦于嵌入式软件的开发、测试和维护过程,通过大模型技术实现代码与文档的双向校验以及代码漏洞的自动挖掘,从而提升嵌入式软件的可靠性和安全性。
主要技术
(1)基于大模型的嵌入式软件自动化分析与测试技术:针对嵌入式软件的分析与测试需求,提出了基于大模型的静态分析和测试用例生成与优化方法。通过多层次上下文提示和自优化技术,结合抽象语法树(AST)提取代码语义信息,实现代码片段、模块和项目级别的缺陷检查,并迭代优化结果。
(2)基于大模型的嵌入式软件漏洞识别与自动修复技术:采用分阶段提示词策略,识别阶段涵盖安全漏洞、内存泄漏和恶意代码防护,精准定位问题;修复阶段通过“分析-生成-验证-优化”流程,结合修复模板库和虚拟编译环境。
(3)代码生成大模型关键机理:明确注意力机制设计、大模型架构设计、预训练方法等关键机理,为构建专用大模型提供技术依据,奠定嵌入式大模型软件开发基础。
(4)嵌入式代码数据收集与预处理:通过多种渠道收集代码数据,进行安全性检查、清洗和标准化处理,构建高质量的代码数据集。
(5)面向代码大模型的代码分析和代码表示技术:研究了序列化(Tokenization、AST Linearization、BPE)和结构化(CFG、DFG、PDG)特征表示技术,通过标记化、线性化和子词化处理,结合语法结构、数据流和控制流信息,增强模型的代码理解与表示能力。
代码大模型原型工具开发设计:在设计代码大模型插件时,创建了与IDE无缝集成的插件,提供代码自动补全、代码自动生成、代码注释自动生成、代码解释、代码缺陷检测与修复、测试用例自动生成、智能代码搜索等功能。


夜雨聆风