软件工程论文速递 | 26.04.27 日报: 30篇新论文速递

• When Prompt Under-Specification Improves Code Correctness: An Exploratory Study of Prompt Wording and Structure Effects on LLM-Based Code Generation
• Defective Task Descriptions in LLM-Based Code Generation: Detection and Analysis
• Leveraging LLMs for Multi-File DSL Code Generation: An Industrial Case Study
• Measuring the Unmeasurable: Markov Chain Reliability for LLM Agents
• Mono2Sls: Automated Monolith-to-Serverless Migration via Multi-Stage Pipeline with Static Analysis
• MAS-SZZ: Multi-Agentic SZZ Algorithm for Vulnerability-Inducing Commit Identification
• MEMCoder: Multi-dimensional Evolving Memory for Private-Library-Oriented Code Generation
• RefEvo: Agentic Design with Co-Evolutionary Verification for Agile Reference Model Generation
• Empowering Autonomous Debugging Agents with Efficient Dynamic Analysis
• Constraint-Guided Multi-Agent Decompilation for Executable Binary Recovery

软件实践、评测与人机协作

• Less Is More: Engineering Challenges of On-Device Small Language Model Integration in a Mobile Application
• Evaluation of LLM-Based Software Engineering Tools: Practices, Challenges, and Future Directions
• Understanding the Limits of Automated Evaluation for Code Review Bots in Practice
• How Do Software Engineering Students Use Generative AI in Real-World Capstone Projects? An Empirical Baseline Study
• Putting a Face to the Issue: Fostering User Empathy of Open Source Software Developers With PersonaFlow
• On the Footprints of Reviewer Bots Feedback on Agentic Pull Requests in OSS GitHub Repositories
• Exploring Creativity in Human-Human-LLM Collaborative Software Design
• How Do Developers Use Migration Guides? A Case Study of Log4j
• AgentPulse: A Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment

安全、漏洞与可靠性分析

• Closing the Loop: A Software Framework for AI to Support Business Decision Making
• Evaluating Cryptographic API Misuse Detectors for Go
• Vulnerability Identification by Harnessing Inter-connected Multi-Source Information

系统、平台与基础设施

• Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion
• Chamelio: A Fast Shared Cloud Network Stack for Isolated Tenant-Defined Protocols

形式化方法与程序理论

• Hybrid Path-Sums for Hybrid Quantum Programs
• Minimum Reachability Probabilities in Rectangular Automata with Random Clocks
• A Theory of Hanoi Omega-Automata and Games
• Regular Grammars as Effective Representations of Recognizable Sets of Series-Parallel Graphs
• SemML 2.0: Synthesizing Controllers for LTL
• Improving Reachability in Vector Addition Systems through Pumpability

LLM 代码生成与代理工程

When Prompt Under-Specification Improves Code Correctness: An Exploratory Study of Prompt Wording and Structure Effects on LLM-Based Code Generation

• 作者：Amal AKLI, Mike PAPADAKIS, Maxime CORDY, Yves Le TRAON
• arXiv URL：https://arxiv.org/abs/2604.24712v1

Abstract

大型语言模型已被广泛用于代码生成，但其输出正确性不仅取决于模型能力，也高度依赖任务说明的写法。本文考察提示词结构、任务复杂度与说明丰富度如何共同影响模型对提示变异的鲁棒性，在 HumanEval 与结构更丰富的 LiveCodeBench 上评测 10 个模型。结果表明，鲁棒性并不是模型的固定属性，而是显著依赖提示结构：在 HumanEval 上会明显损伤正确率的欠规格化变异，在 LiveCodeBench 上由于描述、约束、示例与 I/O 约定之间存在冗余，整体影响几乎为零。更值得注意的是，一些提示变异反而提升了正确性，因为它们打破了会诱发错误检索式解题策略的误导性词汇或结构线索。人工分析进一步归纳出若干稳定机制，包括削弱过拟合术语、移除误导性约束以及消除伪触发标识符。总体来看，结构丰富的任务描述能够显著缓解欠规格化带来的负面影响，某些情况下甚至可以提升代码正确性，并为编写更稳健的代码生成提示提供了实践启发。

Defective Task Descriptions in LLM-Based Code Generation: Detection and Analysis

• 作者：Amal Akli, Mike Papadakis, Maxime Cordy, Yves Le Traon
• arXiv URL：https://arxiv.org/abs/2604.24703v1

Abstract

尽管大模型已被广泛用于代码生成，但这类方法通常默认任务描述足够完整且表达良好；而在真实场景中，用户给出的说明往往存在缺陷，并会显著影响代码正确性。为此，本文提出 SpecValidator，这是一种基于小模型并采用参数高效微调得到的轻量分类器，用于自动识别任务描述中的三类缺陷：词汇模糊、欠规格化以及语法/格式问题。作者在三个结构与复杂度不同的基准上进行评测，结果显示 SpecValidator 的缺陷检测性能达到 F1=0.804、MCC=0.745，显著优于 GPT-5-mini 与 Claude Sonnet 4。更重要的是，该方法还能泛化到未见过的问题类型，并在原始真实基准描述中识别出未知的欠规格化缺陷。进一步分析表明，大模型对描述缺陷的鲁棒性主要由缺陷类型和任务描述特征决定，而不是简单由模型规模决定，其中欠规格化是破坏性最强的一类。具有更丰富上下文支撑的基准，如 LiveCodeBench，也表现出更强韧性，强调了结构化任务描述对可靠代码生成的重要性。

Leveraging LLMs for Multi-File DSL Code Generation: An Industrial Case Study

• 作者：Sivajeet Chand, Kevin Nguyen, Peter Kuntz, Alexander Pretschner
• arXiv URL：https://arxiv.org/abs/2604.24678v1

Abstract

通用代码生成上的强表现并不意味着大模型能够自然迁移到企业级领域专用语言场景，尤其是面对由单条自然语言指令驱动、涉及多文件与目录结构的仓库级修改任务时更是如此。本文以 BMW 的工业实践为背景，研究如何适配代码大模型来生成和修改基于 Xtext 的 DSL 工程根目录工件，并支撑下游 Java/TypeScript 代码生成。作者构建了一个端到端流程，覆盖数据集制作、多文件任务表示、模型适配与评测，并将 DSL 文件树编码为保留路径信息的结构化 JSON，使模型能够在单次响应中完成仓库级输出并学习跨文件依赖。针对 Qwen2.5-Coder 与 DeepSeek-Coder 两个 7B 模型，作者比较了基线提示、one-shot 上下文学习与 QLoRA 微调三种配置。除常见相似度指标外，论文还提出针对编辑正确性与仓库结构保真度的任务特定评测指标。结果表明，微调带来了最显著的整体提升，在 held-out 集上同时取得较高 exact match、编辑相似度和 1.00 的结构保真度；one-shot 方案也相较基线带来稳定改善。专家开发者调查与基于现有代码生成器的执行检查进一步验证了方案的实际可用性。

Measuring the Unmeasurable: Markov Chain Reliability for LLM Agents

• 作者：Phat T. Tran-Truong, Xuan-Bach Le
• arXiv URL：https://arxiv.org/abs/2604.24579v1

Abstract

LLM 代理越来越像顺序执行的软件系统，但它们的可靠性往往只被压缩成 pass@k 等单一标量指标，这些指标虽然便于比较，却难以揭示底层成功时间分布、拟合假设是否成立以及有限轨迹下的不确定性。本文提出 TraceToChain，一个可复现管线，用吸收型离散时间马尔可夫链去拟合代理执行轨迹，并显式给出诊断与不确定性分析。该方法会自动构建状态聚类体系，用带拉普拉斯平滑的最大似然估计转移概率，再通过复合 AIC 与 KS 拟合检验证书检查模型是否合理，并报告基于狄利克雷后验和非参数 bootstrap 的置信区间。作者将经典可靠性分析中的首达时间观点引入代理评估，指出 pass@k、pass^k 与 RDC 实际上都是同一成功时间分布的不同投影。对七个受控 MAST 风格框架的严格 50/50 拟合-测试实验显示，解析得到的 RDC 与保留集经验曲线高度一致，且首达时间 CDF 的双样本 KS 检验在全部框架上均通过。结果表明，以马尔可夫链为核心的可靠性建模可为代理评估提供更可解释、带不确定性的统计基础。

Mono2Sls: Automated Monolith-to-Serverless Migration via Multi-Stage Pipeline with Static Analysis

• 作者：Xingyan Chen, Yuxin Su, Zishan Su, Yang Yu, Zibin Zheng
• arXiv URL：https://arxiv.org/abs/2604.24550v1

Abstract

将传统单体后端迁移到云平台不仅涉及代码修改，还要求对程序结构、基础设施配置以及云特定设计决策进行协同重构，因此在工业实践中仍高度依赖人工。本文提出 Mono2Sls，一个将单体 Web 后端自动转换为可部署 AWS SAM 应用的多阶段流水线。该系统结合对入口点、调用图和异步行为的轻量静态分析，以及四个顺序执行、可调用工具的 LLM 代理：Architect、Code Developer、SAM Engineer 与 Consistency Validator。这些代理通过明确的中间工件通信，并查询专门整理的 SAM 知识库。作者在六个总计超过一万行代码、包含 76 个业务端点的基准应用上评测，Mono2Sls 在无需人工修补的情况下实现了 100% 部署成功率，并取得 66.1% 端到端正确率和 98.7% API 覆盖 F1，优于商业基线。迁移后的系统还更一致地采用了 AWS 原生认证与异步模式。消融实验进一步表明，静态分析引导的架构规划为端到端正确率贡献了 23.4 个百分点。

MAS-SZZ: Multi-Agentic SZZ Algorithm for Vulnerability-Inducing Commit Identification

• 作者：Sicong Cao, Jinxuan Xu, Le Yu, Jing Yang, Xingwei Lin, Linlin Zhu, Fu Xiao
• arXiv URL：https://arxiv.org/abs/2604.24398v1

Abstract

准确识别引入漏洞的历史提交，是漏洞检测、影响版本分析等一系列软件安全任务的基础。经典 SZZ 算法通过沿代码历史回溯来定位最早引入脆弱代码的提交，但无论是定制化的 V-SZZ 还是现有最先进的 LLM4SZZ，都仍受限于错误锚点选择与回溯能力不足，难以在真实实践中可靠使用。为此，本文提出多代理漏洞引入提交识别算法 MAS-SZZ。给定 CVE 描述及其对应修复提交后，MAS-SZZ 先总结漏洞根因，再利用结构化的 step-forward prompting，根据每个补丁 hunk 的修改意图定位与漏洞相关的语句，并以这些语句作为锚点，自主沿仓库历史回溯到最早引入漏洞的提交。大量实验表明，MAS-SZZ 在多个数据集与多种编程语言上都显著优于现有基线，相比最佳 SZZ 算法可带来最高 65.22% 的 F1 提升。

MEMCoder: Multi-dimensional Evolving Memory for Private-Library-Oriented Code Generation

• 作者：Mofei Li, Taozhi Chen, Guowei Yang, Jia Li
• arXiv URL：https://arxiv.org/abs/2604.24222v1

Abstract

虽然大语言模型在通用代码生成上表现突出，但在依赖企业内部私有库的场景中，其性能会明显下降，因为这些私有知识通常不在公开预训练语料中。检索增强生成虽然能通过静态 API 文档提供一种免训练替代方案，但作者指出，单纯文档通常只能给出孤立定义，无法覆盖任务级 API 协同模式以及参数约束、边界条件等关键知识。为此，本文提出 MEMCoder，一个让模型能够在这两个维度上自主积累并演化“使用指南”的框架。其核心 Multi-dimensional Evolving Memory 会从模型自身的问题求解轨迹中蒸馏经验，在推理时通过双源检索同时注入静态文档与相关历史指南。整个框架依赖客观执行反馈形成自动闭环，反思成功与失败、解决知识冲突并动态更新记忆。作者在 NdonnxEval 与 NumbaEval 上验证发现，MEMCoder 能显著增强现有 RAG 系统，平均带来 16.31% 的绝对 pass@1 提升，并在领域适应能力上明显优于现有基于记忆的持续学习方法。

RefEvo: Agentic Design with Co-Evolutionary Verification for Agile Reference Model Generation

• 作者：Yifan Zhang, Jianmin Ye, Jiahao Yang, Xi Wang
• arXiv URL：https://arxiv.org/abs/2604.24218v1

Abstract

随着 SoC 设计复杂度持续增长，前移验证范式要求尽快构建高保真参考模型，以支持早期架构探索和验证。然而，将 LLM 用于硬件建模面临一系列特有挑战：静态工作流难以适应复杂度差异；多轮交互中的上下文窗口溢出会导致关键规格遗忘；而测试平台与参考模型可能共同幻觉，从而出现“耦合验证失败”。针对这些问题，本文提出 RefEvo，一个面向敏捷且可靠参考模型生成的动态多代理框架。其三项核心创新包括：根据语义复杂度自动分解规格并构建定制执行流程的动态设计规划器；利用 Dialectical Arbiter 同时纠正模型与验证逻辑、从而缓解误判的协同进化验证机制；以及用于无损压缩上下文的规格锚定策略。作者在 20 个多样化硬件模块基准上评测，RefEvo 达到 95% 通过率，显著优于静态基线。同时，上下文优化平均减少了 71.04% 的 token 消耗，在复杂设计中每次会话可节省七万多个 token，并保持 100% 的规格召回率。

Empowering Autonomous Debugging Agents with Efficient Dynamic Analysis

• 作者：Jiahong Xiang, Xiaoyang Xu, Xiaopan Chu, Hongliang Tian, Yuqun Zhang
• arXiv URL：https://arxiv.org/abs/2604.24212v1

Abstract

面向自动程序修复的自主代理是软件工程中的一个重要方向，但它们常受限于粗粒度、事后式的执行反馈。尽管把传统交互式调试器接入代理看上去是自然选择，但逐行交互的低层模式对 LLM 来说代价过高，很容易耗尽预算并陷入低效循环。为解决这一问题，本文提出 Agent-centric Debugging Interface（ADI），一种以代理为中心、面向端到端自治交互而设计的高效调试接口。ADI 通过函数级交互范式工作，底层由 Frame Lifetime Trace 提供支撑：它以一个全面的数据结构封装函数级有状态执行轨迹，并配套若干高层导航命令。作者在 SWE-bench 上的大量实验表明，仅为基础代理接入 ADI，就能在 SWE-bench Verified 集上解决 63.8% 的任务，略优于高度优化且投入更高的 Claude-Tools 代理，同时平均每题成本仅 1.28 美元。作为即插即用组件，ADI 集成到现有 SOTA 代理中也可稳定带来 6.2% 到 18.5% 的解决率提升，说明它可以成为提升自治代理能力的一种通用高效增强模块。

Constraint-Guided Multi-Agent Decompilation for Executable Binary Recovery

• 作者：Yifan Zhang, Xiaohan Wang, Yueke Zhang, Kevin Leach
• arXiv URL：https://arxiv.org/abs/2604.23940v1

Abstract

从编译后的二进制恢复出可再次执行的源代码，对于安全分析、恶意软件逆向工程以及遗留系统维护都至关重要。但现有反编译器输出的代码通常难以顺利编译或正确运行，从而限制了其实用价值。本文提出一种多代理框架，通过多层约束引导的反编译，将反编译结果逐步修复为可重新执行的源码。该方法使用三层验证：语法正确性、GCC 可编译性以及基于 LLM 生成测试用例的行为等价性；当某一级失败时，专门代理会根据结构化错误反馈迭代修正代码。作者在 ExeBench 的 1641 个真实二进制样本上，对 RetDec、Ghidra 与 Angr 三种反编译器输出进行了评测。结果显示，该框架可将可执行率提升到 84% 到 97%，相比原始反编译结果提高 28 到 89 个百分点；在相同 GPT-4o 骨干下，也优于 LLM4Decompile、SK2Decompile 和 SALT4Decompile。消融实验说明，仅追求编译通过是不够的，因为 compile-only 路径虽然可获得很高编译率，但行为正确性为 0%；执行级验证才是连接“能编译”与“真可用”的关键。

软件实践、评测与人机协作

Less Is More: Engineering Challenges of On-Device Small Language Model Integration in a Mobile Application

• 作者：William Oliveira
• arXiv URL：https://arxiv.org/abs/2604.24636v1

Abstract

设备端小语言模型承诺为移动端带来完全离线、隐私友好的 AI 体验，但这一承诺在真实工程中能否落地仍值得检验。本文通过一个为期五天、包含 204 次提交的实践者纵向案例研究，系统记录了在生产级 Android 猜词游戏 Palabrita 中集成设备端 SLM 的工程挑战。系统最初试图让模型生成完整结构化谜题，包括词语、类别、难度及五条 JSON 提示，随后逐步收缩为更务实的架构：由人工整理词表提供答案，模型仅负责生成三条简短提示，并在失败时回退到确定性流程。作者总结了五类设备端 SLM 集成特有故障：输出格式违规、约束违规、上下文质量退化、延迟不兼容以及模型选择不稳定，并逐一分析其症状、根因以及有效缓解策略，包括多层防御式解析、结合失败反馈的上下文重试、会话轮换、渐进式提示加固以及系统性缩减模型职责。结果表明，设备端 SLM 可以用于生产移动应用，但前提是开发者接受一个根本约束：最可靠的设备端 LLM 功能，往往是让 LLM 做得最少的那一类。论文最终提炼出八条可操作的设计启发，供移动端集成 SLM 的实践者参考。

Evaluation of LLM-Based Software Engineering Tools: Practices, Challenges, and Future Directions

• 作者：Utku Boran Torun, Veli Karakaya, Ali Babar, Eray Tüzün
• arXiv URL：https://arxiv.org/abs/2604.24621v1

Abstract

随着大语言模型不断嵌入代码生成、自动代码审查、缺陷分诊等软件工程工具，如何可靠评估这类 AI4SE 系统的行为，已成为关键但仍未解决的问题。与传统软件工程系统或经典机器学习系统不同，基于 LLM 的工具通常产生开放式自然语言输出，往往存在多个合理答案，并且在多次运行之间具有明显非确定性，这直接冲击了“单一真值”“确定性输出”“客观正确性”等长期评估假设。本文从软件工程任务的视角讨论 LLM 评估为何是一个任务相关且更一般的概念，分析其对信任、采用与有意义比较的重要性，并总结当前主流评估实践及其在真实 AI4SE 场景中的局限。作者归纳出若干核心挑战，包括稳定真值缺失、质量的主观性与多维性、非确定性带来的评估不稳定、自动化及模型评估本身的局限，以及评估实践碎片化。最后，论文提出未来研究方向，呼吁构建更稳健、可扩展且可信的评估方法学，以支撑 LLM 在软件工程中的持续落地。

Understanding the Limits of Automated Evaluation for Code Review Bots in Practice

• 作者：Veli Karakaya, Utku Boran Torun, Baykal Mehmet Uçar, Eray Tüzün
• arXiv URL：https://arxiv.org/abs/2604.24525v1

Abstract

工业软件开发中，自动代码审查机器人越来越常被用于辅助 pull request 审查，但如何可靠且可扩展地评估这些机器人评论的价值，仍然是一个现实难题。实践中常见的做法是依赖开发者对评论的处理动作或标签作为真值，但这些信号本身会受到流程压力、上下文约束与组织决策的强烈影响。本文基于 Beko 的一份工业数据集展开研究，其中包含 2604 条由工程师标注为 fixed/wontFix 的机器人 PR 评论。作者比较了两类自动评估方法：G-Eval 与 LLM-as-a-Judge，并在二元判定与 0-4 Likert 量表两种设定下，用 Gemini-2.5-pro、GPT-4.1-mini 与 GPT-5.2 进行受控对比。结果显示，两类方法与人工标签之间的对齐仅处于中等水平，一致率大约在 0.44 到 0.62 之间，并且会随模型与评估形式明显波动。研究说明，在工业场景下，将开发者动作视作客观真值存在根本局限，因为“修复或忽略”往往反映的不只是评论质量，还包含优先级、资源、流程等多重因素。后续对软件工程主管的访谈也进一步证实了这一点。

How Do Software Engineering Students Use Generative AI in Real-World Capstone Projects? An Empirical Baseline Study

• 作者：Michael Mircea, Elisa Schmid, Jakob Droste, Kurt Schneider
• arXiv URL：https://arxiv.org/abs/2604.24521v1

Abstract

真实世界毕业设计项目具有高度生态效度，学生需要在复杂、多变且面向真实客户的环境中完成软件工程实践。生成式 AI 迅速进入专业软件开发后，教学也面临新问题：学生应当使用现实中常见的 AI 工具，但若缺乏引导，这种使用可能会以尚不清晰的方式影响学习、协作与成果一致性。为建立一个关于负责使用 GenAI 的经验基线，本文对一个允许自由使用生成式 AI 的本科软件工程课程进行了大规模实证研究。课程包含 178 名学生、18 个团队、15 个客户项目，持续四个月。作者从 150 名学生收集了关于态度、使用频率、工作流、具体用法与感知收益/风险的混合方法调查数据，并调查了客户对相关做法的期望与担忧。研究给出了四类结果：GenAI 在软件工程生命周期中的实际使用特征及若干新型工作流；学生推荐的用例与强调验证和独立理解的负责使用原则；客户对 GenAI 的普遍支持以及对理解、质量和数据保护的明确要求；以及对未来课程迭代的启示，包括引入明确的负责使用规范、针对性的 AI 素养资源与团队级治理角色。论文为面向 GenAI 时代的软件工程教学干预提供了状态基线。

Putting a Face to the Issue: Fostering User Empathy of Open Source Software Developers With PersonaFlow

• 作者：Boniface Bahati Tadjuidje, Jin L. C. Guo, Jinghui Cheng
• arXiv URL：https://arxiv.org/abs/2604.24478v1

Abstract

开源软件开发者往往难以真正理解用户的背景与需求，而当前处理缺陷、请求和反馈的 issue tracker 主要围绕技术讨论展开，较少呈现用户侧语境。尽管 persona 方法有助于弥合这一差距，但在现实 OSS 社区中，由于 UX 专业能力与资源不足，persona 通常难以规模化落地。本文提出 PersonaFlow，一个能够从开源仓库工件中自动生成可编辑用户画像，并将其与 issue 报告并列展示的工具。作者招募 13 名 OSS 开发者进行用户研究，结果显示，大多数参与者在理解用户方式上发生了变化，超过半数在回复中加入了更具同理心的表达、面向具体用户调整了解释，或提升了问题优先级。研究进一步发现，这种转变主要通过两条路径发生：一类开发者会把 persona 视为真实的人并产生情感连接，另一类则把 persona 当作更高效的分诊工具来使用。两种路径都可能促进更以用户为中心的行为。论文最后提出了面向 OSS 以及其他容易遮蔽“人”的高效率工作流场景的设计启示。

On the Footprints of Reviewer Bots Feedback on Agentic Pull Requests in OSS GitHub Repositories

• 作者：Syeda Kaneez Fatima, Yousuf Abrar, Abdul Rehman Tahir, Amelia Nawaz, Shamsa Abid, Abdul Ali Bangash
• arXiv URL：https://arxiv.org/abs/2604.24450v1

Abstract

自主编码代理正在重塑 GitHub 上的开发流程，它们生成的 pull request 被本文称为 agentic PR。与此同时，评审过程本身也在走向自动化，评审机器人因此成为这类 PR 结果的重要参与者，但它们对 PR 接受率与解决时长的影响尚不清楚。本文围绕评审机器人反馈质量与反馈数量，实证分析它们与 PR 接受及解决时间之间的关系。作者使用 AI_Dev 数据集中的 4532 个 PR 与 7416 条评审机器人评论，从相关性、清晰性、简洁性以及评论数量等角度展开研究。结果发现，这类机器人评论主要集中在 bug 修复、测试与文档问题上，语气通常文明而带有指令性；它们在清晰性与简洁性上总体表现尚可，但评论与实际代码变更的语义相关度仅属中等。更高的评论量与更长的 PR 解决时间以及更低的平均反馈质量相关，表明机器人在单个 PR 上输出大量评论时，平均反馈针对性会下降。与之相对，反馈质量本身与工作流结果之间没有明显关联。论文据此建议，在 agentic PR 场景中，评审机器人应优先输出少量但高度相关的反馈，而不是追求评论数量。

Exploring Creativity in Human-Human-LLM Collaborative Software Design

• 作者：Victoria Jackson, Grischa Liebel, Rafael Prikladnicki, Andre van der Hoek
• arXiv URL：https://arxiv.org/abs/2604.24373v1

Abstract

尽管 LLM 在编程中的作用已经被大量研究，但它们如何支持“以创造性为核心”的协作工作仍缺乏细致理解。软件设计本身就是一种高度协作且富于创造性的活动，因此为观察 LLM 对创造力的影响提供了理想情境。本文在模拟工作环境的实验室研究中，让 18 对具有设计经验的软件专业人士在 90 分钟内共同完成软件设计任务，并可选地使用一个定制 LLM 界面。研究发现，所有参与小组的设计过程中都出现了创造性，其中 13 组最终交付的设计文档中也明确体现了创造性。作者认为，创造性主要仍来自人类设计者，由其先验经验、共情能力和类比使用等特质驱动；LLM 的作用更多体现在提供新颖想法和扩展人类已有想法上。与此同时，模型有时也会因为提出过于复杂的方案或把讨论带入低效分支而抑制创造性。总体而言，LLM 能够在协作式软件设计中提供创造性支持，但人的洞察依然居于核心位置；若要真正增强人类创造力，设计者必须有意识地与 LLM 互动。

How Do Developers Use Migration Guides? A Case Study of Log4j

• 作者：Takahiro Monno, Kazumasa Shimari, Tetsuya Kanda, Kazuma Yamasaki, Kenichi Matsumoto
• arXiv URL：https://arxiv.org/abs/2604.24072v1

Abstract

迁移指南是一类帮助开发者应对库版本升级中破坏性变更的软件文档。尽管已有研究关注发布说明、API 参考手册和补丁说明等文档形式，但专门针对迁移指南的研究仍然有限。为了提升开发者应对破坏性变更的效率，我们需要更清楚地了解迁移指南当前是如何被提供以及如何在实践中被使用的。本文首先考察那些已知会引入不兼容变更的库，是否提供了迁移指南；随后选取经历过大规模破坏性更新的 Log4j 作为案例，实证分析开发者在真实项目中如何引用和使用其官方迁移指南。结果发现，pull request 作者最常在 PR 描述中引用迁移指南，且绝大多数引用（82.81%）指向整份指南，而非具体章节。作者还发现，开发者不仅会在主版本升级时使用迁移指南，还会在后续维护任务中持续参考，说明迁移指南并非一次性材料，而是贯穿迁移全流程的重要资源。

AgentPulse: A Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment

• 作者：Yuxuan Gao, Megan Wang, Yi Ling Yu
• arXiv URL：https://arxiv.org/abs/2604.24038v1

Abstract

静态基准只能告诉我们 AI 代理在某个时间点“能做什么”，却难以描述它们在真实部署中的采纳情况、维护状态与社区体验。本文提出 AgentPulse，一个持续评估框架，用 18 个来自 GitHub、包注册表、IDE 市场、社交平台和基准榜单的实时信号，对 50 个代理在 10 类工作负载上从四个维度进行评分：基准性能、采纳信号、社区情绪与生态健康。论文通过三项分析来论证框架有效性：首先，这四个因子在统计上大多互补，而不是高度重叠；其次，在去除 GitHub 派生信号后，由“基准+情绪”组成的子分数仍能预测外部采纳代理，如 GitHub stars 与 Stack Overflow 提问量；再次，在少量拥有 SWE-bench 成绩的代理子集上，综合评分与纯基准排名近乎不相关，说明部署信号揭示了基准之外的重要维度。作者因此强调，AgentPulse 并非宣称输出“客观排名”，而是一套用于持续感知部署状态的方法学。为支持复现，框架、采集信号、打分输出与评估工具链均已开源。

安全、漏洞与可靠性分析

Closing the Loop: A Software Framework for AI to Support Business Decision Making

• 作者：Jeffrey Wong, Antoine Creux
• arXiv URL：https://arxiv.org/abs/2604.24116v1

Abstract

商业创新常被描述为一个闭环：提出想法、构建原型、评估用户是否喜欢，再据此学习并进入下一轮迭代。如果 AI 能参与闭环中的每一个环节，就有可能显著加快企业的学习与迭代速度。本文指出，虽然用于部署实验和评估商业回报的实验平台很多，但能够帮助企业学习个性化机制、因果机制以及下一步该产生什么想法的系统却很少，而且现有技术也难以在同一软件界面中以安全、高效的方式供 AI 代理统一编排。为此，作者提出一个由两部分组成的解决方案：一部分基于数学化简来控制复杂性，另一部分基于软件设计来优化编排、安全性与多功能性。该框架超越了简单的均值差异式处理效应分析，引入异质性效应、策略算法、中介分析和效果预测，并通过方差缩减与 anytime valid inference 进一步加快 AI 的学习循环。更重要的是，这些增强分析能力被设计为能跨不同实验类型兼容，并通过单一软件界面暴露给 AI 代理。实验表明，该框架在多个分析目标上改善了代码正确性、减少了代码行数，并在性能上优于由普通代理构造的基线分析流程。

Evaluating Cryptographic API Misuse Detectors for Go

• 作者：Vivi Andersson, Martin Monperrus
• arXiv URL：https://arxiv.org/abs/2604.24085v1

Abstract

密码学 API 误用是一类关键安全漏洞，会直接破坏现代软件系统的安全基础，但在 Go 语言生态中，这一问题仍缺乏系统研究。本文首次对 Go 中的密码学 API 误用检测进行了全面研究，识别并分析了 CodeQL、Gopher、Gosec 与 Snyk Code 四种代表性工具，并建立了一个包含 14 类相关误用的整合分类体系。作者在 328 个安全关键的开源 Go 项目上开展实验，发现了 7473 个密码学 API 误用，从而揭示了此类问题在真实项目中的分布和普遍性。系统比较还显示，不同工具在误用覆盖范围上存在显著差异，这一结论对安全工程实践和后续研究都具有直接意义。

Vulnerability Identification by Harnessing Inter-connected Multi-Source Information

• 作者：Liyou Chen, Hailong Sun, Xiang Gao, Lin Shi, Yixin Yang, Yi Xu
• arXiv URL：https://arxiv.org/abs/2604.24028v1

Abstract

现代软件广泛依赖第三方开源库，因此库中的漏洞会沿依赖链向下游传播，带来严重安全风险。然而，这类库漏洞通常只以隐式方式被报告与修补，并不会明确通知依赖它们的下游软件。现有工作主要依据 bug 报告、提交消息或代码变更来识别漏洞补丁，往往忽略这些信息源之间更丰富的语义关联。本文的核心观察是，漏洞描述、修复策略以及代码变更等多种信息源在高层语义上高度互联，共同表达了漏洞的症状、根因与修复模式。基于这一点，作者提出 VPFinder，一个通过多头注意力融合多源信息的模型，用于同时增强漏洞识别与漏洞类型分类。实验结果显示，VPFinder 在漏洞识别任务上达到 0.941 的 F1，在漏洞类型分类任务上达到 0.610 的 F1，相较现有最先进方法提升了 5.4%。

系统、平台与基础设施

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

• 作者：Zhongjie Duan, Hong Zhang, Yingda Chen
• arXiv URL：https://arxiv.org/abs/2604.24351v1

Abstract

可控扩散模型极大拓展了扩散方法的实用性，但现有方案往往以彼此割裂、依赖特定骨干网络的形式出现，训练流程、参数格式与运行时挂钩方式均不兼容。这种碎片化使不同任务间的基础设施复用、跨骨干能力迁移以及多控制组合都变得困难。本文提出 Diffusion Templates，一个统一且开放的插件式框架，将基础模型推理与可控能力注入解耦。该框架由三部分组成：将任意任务特定输入映射为中间能力表示的 Template 模型、作为统一注入接口的 Template cache，以及可加载、合并并将一个或多个 Template cache 注入基础扩散运行时的 Template pipeline。由于接口是系统层面的，而不是绑定于某一特定控制架构，因此 KV-Cache、LoRA 等异构能力载体都能在同一抽象下被支持。基于该设计，作者构建了一个覆盖结构控制、亮度与色彩调节、图像编辑、超分辨率、锐化、美学对齐、内容参考、局部修补和年龄控制的模型集合。案例表明，该框架能够在快速演化的扩散骨干之间保持统一性、模块化和可组合性。

Chamelio: A Fast Shared Cloud Network Stack for Isolated Tenant-Defined Protocols

• 作者：Matheus Stolet, Simon Peter, Antoine Kaufmann
• arXiv URL：https://arxiv.org/abs/2604.22603

Abstract

传统云网络虚拟化会让报文在 guest 与 host 的多层协议栈之间来回穿行，导致 CPU 成本上升并放大尾延迟。共享主机数据通路能够把多层处理折叠为跨租户共享的一条优化路径，但现有共享栈大多是固定功能的，租户无法针对自己的协议进行定制。eBPF 看似是恢复可编程性的自然工具，但当前扩展粒度太细，而且验证器只能提供安全性，无法提供性能隔离：某个租户每包增加的计算成本会推高所有其他租户的尾延迟。本文提出 Chamelio，一个可编程共享网络栈，允许租户通过受限的 eBPF 快路径与租户慢路径共同实现完整协议，同时尽量接近固定功能共享栈的性能并保持强隔离性。其关键思想包括：面向租户自定义协议的共享栈架构、在共享快路径上联合优化租户处理器与云提供方基础设施以及共驻租户、以及结合运行时周期记账的受限快路径契约。实验表明，在 Chamelio 上实现的租户可编程 TCP 可达到 9.2 Mreq/s，与手工优化的 TAS 栈相当；联合编译将可编程性带来的性能税从 23.9% 降至 3.8%；在一个会把未加约束协议栈受害者尾延迟推高到 154 微秒的对抗性 TCP 负载下，Chamelio 仍能把受害者尾延迟限制在 46 微秒。

形式化方法与程序理论

Hybrid Path-Sums for Hybrid Quantum Programs

• 作者：Christophe Chareton, Jad Issa, Mathieu Nguyen, Nicolas Blanco, Sébastien Bardin
• arXiv URL：https://arxiv.org/abs/2604.24578v1

Abstract

随着量子计算逐渐走向现实，量子程序的调试与验证成为核心挑战，而现有静态分析与形式化验证方法通常难以统一处理经典控制、量子控制、测量以及混合数据结构等“量子-经典混合”推理需求。本文为全混合量子程序的自动化形式验证提出了一个新的理论框架。作者首先设计了一种新的符号表示 Hybrid Path-Sums，用于描述和操作量子/经典混合状态集合；随后给出一套重写规则，以便对这些符号状态进行化简与推理；最后提出一个核心断言语言，用于表达程序等价性、混合状态局部性质以及程序行为中的概率性结论。论文证明了所提出表示、重写系统与规格语言的正确性，并进一步实现了一个面向混合程序的符号执行引擎。作者在若干代表性混合量子案例上验证了方法的有效性与效率，并展示其相对现有方案的优势。

Minimum Reachability Probabilities in Rectangular Automata with Random Clocks

• 作者：Joanna Delicaris, Erika Ábrahám, Anne Remke
• arXiv URL：https://arxiv.org/abs/2604.24440v1

Abstract

在网络物理系统等安全关键控制场景中，系统既包含连续动力学，又存在随机不确定性，因此需要既能表达这两类特征、又能支持安全保证的形式化模型与分析方法。本文研究具有随机时钟的矩形自动机，并采用先知式调度假设。对于该模型，现有方法通常只能计算可达概率上界，因此只能支撑乐观的“最好情况”安全分析。本文通过提出一种新方法来计算下界，从而支持真正面向最坏情况的分析。作者强调，上下界虽然都依赖可达性分析，但二者并非简单对偶：下界计算要求沿执行路径显式地区分随机选择与非确定性选择。论文实现了该方法，并在电动汽车充电场景上展示了其实用可行性，表明可以获得有意义的最坏情况安全保证。

A Theory of Hanoi Omega-Automata and Games

• 作者：Emmanuel Filiot, Allen Joseph, Guillermo A. Pérez, Saina Sunny
• arXiv URL：https://arxiv.org/abs/2604.24231v1

Abstract

Hanoi Omega-Automata 格式已成为现代综合工具中编码 ω-正则自动机的事实标准，它通过布尔公式作为转移守卫，并使用基于转移的着色实现紧凑符号化表示。尽管 HOA 因表达力与简洁性而被广泛采用，其这些结构特性带来的精确计算代价长期缺乏系统研究。本文首次系统分析 HOA 编码自动机与博弈中若干经典判定问题的理论复杂度。作者证明，HOA 对大字母表的符号表示会让传统格式下的经典问题变得更难：例如，所有标准接受条件下的非空性问题都是 NP 完全，其困难性直接来自布尔转移守卫；语言包含问题在大多数条件下是 PSPACE 完全，但在 Emerson-Lei 接受条件下会上升到 EXPSPACE 完全。进一步地，论文形式化了 Hanoi Omega-Games，其中底层 arena 是一个确定性 HOA，命题被划分为输入和输出，并给出了求解这类博弈在不同接受条件下的紧复杂度界。最后，作者还把相关技巧推广到由任意可判定一阶理论公式守卫的符号博弈中。

Regular Grammars as Effective Representations of Recognizable Sets of Series-Parallel Graphs

• 作者：Marius Bozga, Radu Iosif, Florian Zuleger
• arXiv URL：https://arxiv.org/abs/2604.24151v1

Abstract

串并图是一类带源点和汇点的二元边标记图，可通过串行与并行组合递归构造。若一个图集合在某个有限代数上的同态像决定其成员资格，则称其为可识别集合；对于串并图以及更一般的有界树宽图，可识别性与 CMSO 逻辑可定义性等价。尽管这种逻辑刻画很强，人们对“可识别的串并图集合能否被简洁而高效地语法表示”仍缺乏充分认识。本文基于既有的串并图正规文法，证明可识别集合确实可获得紧凑且有效的语法表示。核心贡献是改进了有限识别代数的构造，使其规模只对正规文法大小呈单指数增长，从而优于先前已知的双指数上界。由此，作者还证明了由正规文法表示的串并图集合的交与语言包含问题均为 ExpTime 完全，并改进了先前的 2ExpTime 上界。

SemML 2.0: Synthesizing Controllers for LTL

• 作者：Jan Křetínský, Tobias Meggendorfer, Maximilian Prokop
• arXiv URL：https://arxiv.org/abs/2604.24102v1

Abstract

从线性时序逻辑规格综合出反应式系统，是形式化方法中的经典问题，并广泛用于安全关键系统设计。此类系统通常被表示为 Mealy 机或 AIGER 电路。本文介绍 SemML 的第二个版本，它在寻找这两类解方面都超越了现有所有最先进工具。除了实现经典的自动机论综合路径外，SemML 还结合部分探索与机器学习引导来高效获取解，并配合多项启发式与经典算法改进，以提取更小的结果表示。作者在综合竞赛 SYNTCOMP 的数据集上，将其与 Strix、LtlSynt 以及旧版 SemML 等主流工具进行了系统比较。实验表明，新版 SemML 不仅解决了更多实例，而且速度显著更快，同时保持了当前一流的解质量。

Improving Reachability in Vector Addition Systems through Pumpability

• 作者：Weijun Chen, Yuxi Fu, Yangluo Zheng
• arXiv URL：https://arxiv.org/abs/2604.24095v1

Abstract

向量加法系统是并发与计算理论中的重要模型，与 Petri 网具有等价表达能力。近期很多研究关注带有限状态控制的 VASS，相关结论通常也能迁移到 VAS，但这并不自动带来更紧的复杂度改进。本文专门研究固定维度下 VAS 的可达性问题。作者基于对 VAS 可泵性的分析，细化了 Rackoff 针对 VASS 的提取技术，从而把 d 维 VAS 可达性的上界从继承自 d 维 VASS 的 F_d 改进到 F_{d-2}。论文还研究了低维 VAS 的情形，给出 4 维 VAS 可达性的 PSPACE 上界以及 5 维 VAS 的 ELEMENTARY 上界，而此前类似上界只分别已知于 2-VASS 与 3-VASS。尤其是 4-VAS 的结果，关键依赖于作者为几何二维 VASS 开发的简化投影技术，并证明该类系统的可达性与 2-VASS 等价。