专题推荐 | 大模型与软件工程

大模型与软件工程专题

近年来，大语言模型（LLM）取得了突飞猛进的发展，将人工智能推向了一个新的高度，使更多不同的应用和工业领域获得了智能，并增强了能力。人机交互更加自然高效，各行业出现新的服务和业务模式，科学研究也得到加速。大模型背后是超大的参数规模、海量的训练数据和强大的计算资源，但软件能力提升的同时其质量保障也越来越困难。相比传统软件工程，大模型时代的软件工程需要面临更多的挑战：大模型支撑系统与框架的潜在缺陷，不断变化的基础设施导致系统演化困难，大模型行为本身缺乏可解释性与可信性，数据质量问题诱发的模型质量问题，伦理、道德和法律的约束使得软件应用困难。在这种局面下，亟需从软件工程的角度系统性地审视大模型时代下的软件质量保障方法，从而更好应对这一新兴领域中的新挑战。“大模型与软件工程”专题立足于软件工程领域，探讨在大模型时代软件工程技术的新发展与新趋势，特别是基于大模型的需求分析、设计和如何利用大模型技术进行自动代码生成、测试和形式化验证等，同时研究如何利用软件工程理论和方法保证基于大模型的软件系统的质量和安全。

本专题公开征文，共收到投稿51篇。稿件经初审、复审、ChinaSoft 2025会议宣读和终审4个阶段，历时6个月，最终有以下6篇论文入选本专题。本专题主要面向软件工程、系统软件、形式化、人工智能和大模型等多领域的研究人员和工程人员，反映了我国学者在大语言模型、人工智能和软件工程等领域相互赋能最新的研究进展。希望本专题能够对与大语言模型相互赋能的软件工程、系统软件与形式化等相关领域的研究工作有所促进。

特邀编委：

聂长海（南京大学）

王璐（西安电子科技大学）

王莹（东北大学）

姜艳杰（天津大学）

张敏灵（东南大学）

基于大语言模型的需求歧义检测方法

在现代软件开发中，需求歧义是导致项目失败、成本超支和质量问题的关键因素，因此，人们对需求歧义的自动化检测进行了广泛的研究。虽然这些方法降低了人工审查的时间成本，但歧义检测解决方案类型不全，难以全面覆盖语言歧义对应的6种歧义类型。传统方法缺乏深层次的语义理解、逻辑关系识别以及引用/指代关系识别能力，这限制了其对语义的处理能力，无法对语用歧义以及语言错误歧义进行检测。

为此，文章提出了一种基于大语言模型的方法（称为LMAdetect），用于自动检测需求歧义。对于给定的需求， LMAdetect根据启发式规则和大语言模型进行分析，将该需求检测分类为对应的歧义类型。然而，大语言模型经常会分类出不同的歧义类型，针对大语言模型的分类结果，LMAdetect利用基于规则的算法，将不同歧义类型分配给不同专家进行检测。最后对这些检测结果根据置信度进行汇总并输出置信度高的分类结果。对6种歧义类型共1 192个数据进行了实验，结果表明，相较传统基于规则的方法，LMAdetect的F1分数提升了34.4个百分点，相较仅使用基于大语言模型的方法，F1分数提升了31.6个百分点，对于语用歧义和语言错误歧义的检测，F1分数分别达到了0.6950和0.8889，展示了其在需求歧义检测方面的优势。

【引用】

高俊涛, 刘芳, 杨溢龙. 基于大语言模型的需求歧义检测方法[J]. 计算机研究与发展, 2026, 63(4): 827-853. DOI: 10.7544/issn1000-1239.202550700

Gao Juntao, Liu Fang, Yang Yilong. Requirement Ambiguity Detection Method Based on Large Language Model[J]. Journal of Computer Research and Development, 2026, 63(4): 827-853. DOI: 10.7544/issn1000-1239.202550700

扫码可获取全文

RD2ESC：多智能体嵌入式代码生成框架

大语言模型（LLM）在软件工程中的应用日益广泛，但目前自动化代码生成研究主要集中于通用功能代码，缺乏针对嵌入式系统特殊需求的有效解决方案。

文章提出了RD2ESC（requirements documents to embedded system code）方法，通过基于提示词的微调技术使LLM能够理解嵌入式代码与需求文档之间的复杂关系，并构建了多智能体协同的代码生成框架，能够利用需求文档和参考代码快速生成高质量的嵌入式代码。实验结果表明，RD2ESC相比GPT-4o基线模型在Pass@1指标上从0.15提升至0.71，测试通过率达到0.75，编译通过率达到0.95；敏感性分析显示该方法对参考代码质量存在一定依赖性，在10%~50%扰动条件下Pass@1从0.68降至0.47，完全无参考代码时降至0.25，但仍保持基础代码生成能力；消融实验证实了多智能体间的协同效应，完整系统相比单一组件展现出显著的性能提升。该研究为嵌入式代码自动生成提供了有效的技术框架，提升了嵌入式系统开发效率。

【引用】

谭舒孺, 肖宏彬, 李智, 谢晓兰, 武天昊, 汤飞. RD2ESC：多智能体嵌入式代码生成框架[J]. 计算机研究与发展, 2026, 63(4): 854-867. DOI: 10.7544/issn1000-1239.202550663

Tan Shuru, Xiao Hongbin, Li Zhi, Xie Xiaolan, Wu Tianhao, Tang Fei. RD2ESC: Multi-Agent Embedded Code Generation Framework[J]. Journal of Computer Research and Development, 2026, 63(4): 854-867. DOI: 10.7544/issn1000-1239.202550663

扫码可获取全文

融合静态分析与大语言模型的

非连续代码重构方法

随着大语言模型（LLM）在软件工程领域的广泛应用，通过其强大的代码理解与生成能力进行自动化代码重构，已成为提升软件质量与开发效率的关键方向。然而，对于由语句交错、重排等导致的非连续代码克隆，LLM在重构时面临着语义上下文分散、关键依赖捕捉困难以及易产生“幻觉”错误等核心挑战。

为应对这些挑战，文章提出了一种融合静态分析与LLM的非连续代码克隆重构方法。该方法首先通过结合程序切片与代数分类器，高效精准地识别非连续克隆；然后，通过一种基于上下文信息的重构机会识别算法，为LLM确定最佳重构目标；最后，利用思维链少样本提示策略引导LLM生成高质量的“提取函数”重构建议，并利用蜕变关系验证机制，对生成结果进行语义和结构一致性验证。所提出的重构方法在Junit等真实项目中减少了66%~71%的克隆代码。此外，在开源数据集Google Code Jam和BigCloneBench上的实验表明，所提出的检测方法F1值较现有主流工具提升了2%~18%，在Community Corpus-A重构机会识别基准上，F1值达到了0.415，超越先进工具GEMS 7.5%，提升了软件质量。

【引用】

嵇友晴, 张迎周, 苏玉鹏, 王刚, 张文智, 谢金言. 融合静态分析与大语言模型的非连续代码重构方法[J]. 计算机研究与发展, 2026, 63(4): 868-883. DOI: 10.7544/issn1000-1239.202550688

Ji Youqing, Zhang Yingzhou, Su Yupeng, Wang Gang, Zhang Wenzhi, Xie Jinyan. Non-Contiguous Code Refactoring: A Hybrid Approach of Static Analysis and Large Language Model[J]. Journal of Computer Research and Development, 2026, 63(4): 868-883. DOI: 10.7544/issn1000-1239.202550688

扫码可获取全文

基于大语言模型的

数据库管理系统模糊测试方法

数据库管理系统（database management system，DBMS）作为数据管理与存储的关键软件，其可靠性直接影响数据密集型系统的安全稳定运行。近年来，模糊测试因其具备人工成本低、测试效率高等特点，成为DBMS测试方法之一。然而现有的DBMS模糊测试方法面临测试用例覆盖能力不足与多DBMS适配性差两大问题，限制了测试的效果和泛用性。

为此，CLCC（curated LLM case construct）是一种基于大语言模型（large language model，LLM）的DBMS模糊测试方法。该方法在模糊测试前，利用LLM对初始种子进行构建，并在模糊测试过程中，根据边覆盖情况筛选种子，引导LLM生成测试用例。与SQUIRREL、SQLRight和ParserFuzz进行的对比实验表明，CLCC测试SQLite、MySQL、MariaDB、DuckDB和PostgreSQL的边覆盖数量比SQUIRREL增加了14.96%~49.31%；测试SQLite、MySQL和PostgreSQL的边覆盖数量比SQLRight增加了6.09%~17.10%；测试SQLite、MySQL和MariaDB的边覆盖数量比ParserFuzz增加了17.95%~41.20%。

【引用】

张瑞宸, 张亚东, 兰文尉, 岳清, 王正武, 崔展齐. 基于大语言模型的数据库管理系统模糊测试方法[J]. 计算机研究与发展, 2026, 63(4): 884-899. DOI: 10.7544/issn1000-1239.202550692

Zhang Ruichen, Zhang Yadong, Lan Wenwei, Yue Qing, Wang Zhengwu, Cui Zhanqi. Large Language Model Based Fuzz Testing Approach for Database Management System[J]. Journal of Computer Research and Development, 2026, 63(4): 884-899. DOI: 10.7544/issn1000-1239.202550692

扫码可获取全文

多代理协作实现缺陷报告补全和优化

缺陷报告是开发者定位和修复缺陷的关键依据，其质量直接影响软件维护效率。尽管已有研究证明高质量报告可显著缩短修复时间，但开源项目中仍普遍存在信息残缺问题。现有基于机器学习和大语言模型（LLM）的自动补全方法虽能提升完整性，但仍存在明显不足：传统方法通过检索和拼接相似报告片段，易导致语义断裂和逻辑不一致；LLM生成内容虽流畅，却可能存在事实性幻觉。

受人类专家“分阶段处理、多角色协同”的问题解决机制启发，文章提出一种多代理协作机制实现缺陷报告补全和优化。通过3个关键设计实现高质量补全：1）将补全任务分解为缺陷分析、报告补全和质量评估3个阶段，由不同代理负责以降低认知负荷；2）设计结构化提示模板，精准引导LLM扮演领域专家角色，确保各阶段输出准确；3）引入动态反馈机制，通过多轮迭代实现代理间的交叉验证和协同优化，有效控制语义漂移问题，确保逻辑连贯且补全内容与事实一致。在4个公开数据集上的实验表明，在BLEU，Sentence-BERT，ROUGE-L和METEOR指标上较基线分别提升10.41%，7.52%，13.55%和16.64%。人工评估进一步证实，所提方法补全的报告在完整性、清晰性与帮助性上均显著优于现有方法，可为开源社区缺陷治理提供可靠支持。

【引用】

魏威, 苑兴, 杜军威, 李玉莹. 多代理协作实现缺陷报告补全和优化[J]. 计算机研究与发展, 2026, 63(4): 900-917. DOI: 10.7544/issn1000-1239.202550693

Wei Wei, Yuan Xing, Du Junwei, Li Yuying. A Multi-Agent Collaboration for Completing and Optimizing Bug Reports[J]. Journal of Computer Research and Development, 2026, 63(4): 900-917. DOI: 10.7544/issn1000-1239.202550693

扫码可获取全文

基于代码感知与双阶段优化融合的

README生成大语言模型框架

随着开源软件生态的蓬勃发展，使用开源已成为当前开发的主流模式。其中，README是理解、复用开源软件的关键要素。然而，部分开源软件存在README文件缺失、信息不全以及结构不清晰等不规范问题，导致开发者难以理解和使用，降低开发效率。研究人员提出了多种README自动生成、补全方法，但这些方法仍然面临跨语言适用性不足、忽视代码结构信息、生成结果存在幻觉和主观性等挑战。

因此，文章提出结合大语言模型与代码结构建模的双阶段README自动生成框架RMancer。第1个阶段中，RMancer设计了基于提示引导的结构化信息抽取方法，结合静态分析生成高质量训练数据，提升模型对文件级功能摘要、依赖关系和主程序入口等结构要素的感知能力。第2个阶段设计了基于调用图的拓扑排序策略，重构模块间的执行逻辑顺序，以构建结构化文档生成的上下文信息；同时，引入多任务监督机制，引导大模型联合学习文档段落结构与内容生成，提升输出文本的逻辑一致性与客观性；最后，RMancer通过标准化约束策略对生成结果进行格式规整与内容审校，确保文档的规范性与准确性。在包含 16692 个开源软件的测试集中，RMancer 在信息抽取与 README 生成2个子任务上均显著优于现有方法，具体而言，在信息抽取任务中，其在calls、entry和description 字段的 F1-score 相较最佳基线模型平均提升2.34%；在文档生成任务中，BLEU、METEOR 和 ROUGE-L三项指标相较最佳基线模型平均提升幅度为1.37%。此外，RMancer在AlignScore和G-Eval两种自动评估指标上表现最佳。同时，在内容客观性与冗余控制等关键维度上，RMancer仍保持领先表现，进一步验证了其结构感知与多任务优化策略的有效性。

【引用】

崔星, 吴敬征, 罗天悦, 凌祥, 王旭. 基于代码感知与双阶段优化融合的README生成大语言模型框架[J]. 计算机研究与发展, 2026, 63(4): 918-942. DOI: 10.7544/issn1000-1239.202550698

Cui Xing, Wu Jingzheng, Luo Tianyue, Ling Xiang, Wang Xu. An LLM-Based README Generation Framework via Code-Aware Representation and Dual-Stage Optimization[J]. Journal of Computer Research and Development, 2026, 63(4): 918-942. DOI: 10.7544/issn1000-1239.202550698

扫码可获取全文

点击文末“阅读原文”可以登录网站阅读全文。

近年软件技术相关专题

2024年: 生成式AI与软件自动化

2023年：时间敏感嵌入式软件与系统专题

2023年：程序语义深度理解前沿进展

2022年：智能化软件与软件控制论

2025年论文合辑系列

合辑 | 《计算机研究与发展》2025年刊登安全与隐私保护相关论文

合辑 | 《计算机研究与发展》2025年刊登体系结构相关论文

合辑 | 《计算机研究与发展》2025年刊登网络与通信相关论文

合辑 | 《计算机研究与发展》2025年刊登大模型论文

合辑 | 《计算机研究与发展》2025年刊登人工智能相关论文

合辑 | 《计算机研究与发展》2025年刊登综述论文

2026年目录

目录 | 《计算机研究与发展》2026年第1期（投票评选您最感兴趣的论文）
目录 | 《计算机研究与发展》2026年第2期（投票评选您最感兴趣的论文）目录 | 《计算机研究与发展》2026年第3期（投票评选您最感兴趣的论文）
目录 | 《计算机研究与发展》2026年第4期（投票评选您最感兴趣的论文）