软件工程论文速递 | 26.04.24 日报: 39篇新论文速递

• Less Is More: Measuring How LLM Involvement affects Chatbot Accuracy in Static Analysis
• Agentic AI-assisted coding offers a unique opportunity to instill epistemic grounding during software development
• DryRUN: On the Role of Public Tests in LLM-Driven Code Generation
• A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair
• Assessing the Impact of Requirement Ambiguity on LLM-based Function-Level Code Generation
• Conjecture and Inquiry: Quantifying Software Performance Requirements via Interactive Retrieval-Augmented Preference Elicitation
• MathDuels: Evaluating LLMs as Problem Posers and Solvers
• mcdok at SemEval-2026 Task 13: Finetuning LLMs for Detection of Machine-Generated Code
• From If-Statements to ML Pipelines: Revisiting Bias in Code-Generation
• Learning Reasoning World Models for Parallel Code
• Absorber LLM: Harnessing Causal Synchronization for Test-Time Training
• Promoting Simple Agents: Ensemble Methods for Event-Log Prediction
• Mind the Prompt: Self-adaptive Generation of Task Plan Explanations via LLMs
• Behavioral Consistency and Transparency Analysis on Large Language Model API Gateways
• Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models

形式化方法与程序验证

• Automated LTL Specification Generation from Industrial Aerospace Requirements
• Verifying Machine Learning Interpretability Requirements through Provenance
• SpecSyn: LLM-based Synthesis and Refinement of Formal Specifications for Real-world Program Verification
• Probabilistic Verification of Neural Networks via Efficient Probabilistic Hull Generation
• NEST: Network Enforced Session Types (Technical Report)
• Linear Constraints
• Active Inference of Extended Finite State Machine Models with Registers and Guards
• Trustworthy Clinical Decision Support Using Meta-Predicates and Domain-Specific Languages
• The Path Not Taken: Duality in Reasoning about Program Execution

软件测试与质量

• Generalizing Test Cases for Comprehensive Test Scenario Coverage
• PrismaDV: Automated Task-Aware Data Unit Test Generation
• VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

软件安全与漏洞治理

• CrossCommitVuln-Bench: A Dataset of Multi-Commit Python Vulnerabilities Invisible to Per-Commit Static Analysis
• A Ground-Truth-Based Evaluation of Vulnerability Detection Across Multiple Ecosystems
• Residual Risk Analysis in Benign Code: How Far Are We? A Multi-Model Semantic and Structural Similarity Approach
• Hidden Dependencies and Component Variants in SBOM-Based Software Composition Analysis
• Strategic Heterogeneous Multi-Agent Architecture for Cost-Effective Code Vulnerability Detection

软件系统与基础设施

• Can Large Language Models Assist the Comprehension of ROS2 Software Architectures?
• Biomedical systems biology workflow orchestration and execution with PoSyMed
• TorchGWAS : GPU-accelerated GWAS for thousands of quantitative phenotypes
• Quantum-HPC Software Stacks and the openQSE Reference Architecture: A Survey
• Institutionalizing Best Practices in Research Computing: A Framework and Case Study for Improving User Onboarding

治理、流程与软件工程社会研究

• Structural Quality Gaps in Practitioner AI Governance Prompts: An Empirical Study Using a Five-Principle Evaluation Framework
• Beyond the Binary: Motivations, Challenges, and Strategies of Transgender and Non-binary Software Engineering Students

AI 驱动的软件工程与生成

Less Is More: Measuring How LLM Involvement affects Chatbot Accuracy in Static Analysis

• 作者：Krishna Narasimhan
• arXiv URL：https://arxiv.org/abs/2604.21746

Abstract

大型语言模型在将自然语言转写为静态分析查询语言中应用日益普遍，但不同系统在 LLM 参与比例上差异很大。我们比较了三种架构：直接查询生成、先生成受模式约束的 JSON 中间表示、以及工具增强的代理式生成。四个开源模型在 20 个任务、三档复杂度下通过 2×2 的模型族和规模组合进行评测。结果显示，结构化中间表示方案在准确率上最优，尤其对大模型优势明显，并在复杂度较高时超越代理式方法，且代价更低：其消耗 token 更少、推理更稳定。对小模型而言，最主要瓶颈在于模式服从性，表明在结构化约束明确的静态分析场景下，限制 LLM 输出为严格类型化中间表示可提升最终正确性。

Agentic AI-assisted coding offers a unique opportunity to instill epistemic grounding during software development

• 作者：Magnus Palmblad, Jared M. Ragland, Benjamin A. Neely
• arXiv URL：https://arxiv.org/abs/2604.21744

Abstract

AI 辅助编码正在从聊天式“vibe coding”快速迈向代理式开发，人工只提供高层计划，代理自动落地实现。当前趋势是额外引入项目文档、方法文档等上下文。本文提出 GROUNDING.md，这是一类面向领域的社区治理文档，以“硬约束”（不可违反的正确性不变式）和“约定参数”（共识默认值）双轨机制显式写入。该文档在任何用户提示之上具有优先权，可直接约束生成行为，尤其适合科学软件中的准确性要求。通过质谱组学示例说明其可显著提高复杂领域软件开发中可验证正确性的基线，并在非专业开发者和审阅者之间共享约束能力，降低领域知识流失风险。

DryRUN: On the Role of Public Tests in LLM-Driven Code Generation

• 作者：Kaushitha Silva, Srinath Perera
• arXiv URL：https://arxiv.org/abs/2604.21598

Abstract

多代理代码生成框架常依赖预置公开测试用例进行规划和自我调试，但真实工程环境中此类样例很少可得，导致方法受限于高质量数据集。我们指出这种依赖造成“过度自信差距”：模型可能在公开样例上过拟合而忽略隐藏输入。我们观察到，LLM 并非必须依赖真实样例即可完成生成流程，提出框架 DryRUN，通过让模型自动生成输入、执行轨迹模拟并迭代修正来替代对真实 IO 样例的依赖。实验证明，在 LiveCodeBench v6（2025 年 3 月后）上，DryRUN 在不使用公开测试与外部反馈的情况下，与依赖测试输入的 SOTA 框架 CodeSIM 性能接近，同时显著减少输出 token。

A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair

• 作者：Milan De Koning, Ali Asgari, Pouria Derakhshanfar, Annibale Panichella
• arXiv URL：https://arxiv.org/abs/2604.21579

Abstract

LLM 自动程序修复在降低调试成本方面前景突出，但评测结果可能受到数据泄漏影响：模型在预训练语料中可能记住补丁，从而夸大效果。本文探索将变形测试与负对数似然（NLL）结合，用语义保持变换重构 Defects4J 和 GitBug-Java 两个数据集，比较原始与变换版本下七个 LLM 的修复成功率。结果显示所有模型均出现明显下降，幅度从 GPT-4o 的 -4.1% 到 Llama-3.1 的 -15.98%，且性能退化与 NLL 相关性较强，说明记忆度越高的样本越容易“伪高分”。该证据表明，变形测试与 NLL 联合可更稳健地暴露数据泄漏风险，也可一定程度缓解 APR 评测中的过度乐观偏差。

Assessing the Impact of Requirement Ambiguity on LLM-based Function-Level Code Generation

• 作者：Di Yang, Xinou Xie, Xiuwen Yang, Ming Hu, Yihao Huang, Yueling Zhang, Weikai Miao, Ting Su, Chengcheng Wan, Geguang Pu
• arXiv URL：https://arxiv.org/abs/2604.21505

Abstract

需求歧义在真实软件开发中普遍存在，会降低基于自然语言输入的代码生成稳定性。现有基准多假设需求清晰，不足以覆盖实际不确定性。我们提出 Orchid 基准，包含 1304 个面向函数级的任务，覆盖词汇、语法、语义、模糊性四类歧义。基于该数据集的系统实验表明，歧义会持续削弱所有 LLM 表现，且复杂模型受影响更明显；面对同一含糊需求，模型常给出功能上不同的实现，且难以自动识别或消解歧义。结果说明下一代自动化软件工程工具需要显式处理需求模糊性，而非仅在理想化需求上优化。

Conjecture and Inquiry: Quantifying Software Performance Requirements via Interactive Retrieval-Augmented Preference Elicitation

• 作者：Wang Shi Hai, Chen Tao
• arXiv URL：https://arxiv.org/abs/2604.21380

Abstract

软件性能需求常以自然语言给出，自动将其量化为数学形式是软件工程的重要需求，但语义模糊和人类认知不确定性使其长期停滞。我们形式化该问题，提出 IRAP（Interactive Retrieval-Augmented Preference Elicitation）方法：结合问题特定知识进行偏好检索与推理，在交互中逐步澄清关键不确定性，同时尽量降低认知负担。我们在 4 个真实数据集上与 10 种方法对比，IRAP 在所有场景均取得更优结果，且在仅 5 轮交互内可实现高达 40 倍改进。

MathDuels: Evaluating LLMs as Problem Posers and Solvers

• 作者：Zhiqiu Xu, Shibo Jin, Shreya Arya, Mayur Naik
• arXiv URL：https://arxiv.org/abs/2604.21916

Abstract

随着前沿语言模型在静态数学基准上达到接近天花板性能，现有评测越来越难区分模型能力，因为模型长期被当作固定题库的“解题者”来看。我们提出 MathDuels，这是一个自博弈基准：模型既担任出题者，也担任解题者。出题环节采用三阶段生成流水线（元提示、题目生成、难度扩展），并用独立校验器剔除不规范问题。我们用 Rasch 模型联合估计解题者能力与题目难度，题目质量由模型所出题目的难度表征。对 19 个前沿模型的实验显示，出题能力和解题能力有明显分离；双角色评测能够发现单角色评测无法揭示的能力差异。随着新模型加入，基准难度会与其能力共同演化，而不是停留在静态天花板，且保持可持续区分度。

mcdok at SemEval-2026 Task 13: Finetuning LLMs for Detection of Machine-Generated Code

• 作者：Adam Skurla, Dominik Macko, Jakub Simko
• arXiv URL：https://arxiv.org/abs/2604.21365

Abstract

跨语言识别机器生成代码是多任务挑战问题，SemEval-2026 Task 13 在二分类、生成器家族识别以及混合共生成代码等方面提出了更细粒度设置。我们将原有 mdok 框架迁移到代码语境中，针对不同子任务调整模型与特征，系统评测表明所提交方案在三类子任务上均具竞争力，但与顶级系统仍有可观差距，说明该方向仍有较大改进空间。

From If-Statements to ML Pipelines: Revisiting Bias in Code-Generation

• 作者：Minh Duc Bui, Xenia Heilmann, Mattia Cerrato, Manuel Mager, Katharina von der Wense
• arXiv URL：https://arxiv.org/abs/2604.21716

Abstract

先前对代码生成偏见的评测主要围绕条件语句，覆盖范围窄且只反映显式偏见。我们在更贴近工程实践的任务——机器学习流水线生成上重新评估偏见，考察 LLM 在代码特征选择中的倾向。无论代码专项模型还是通用指令模型，实验均显示敏感属性在生成流水线中的出现频率高达约 87.7%，远高于传统条件语句任务中的 59.2%，即使模型已能剔除部分无关特征。该现象在不同提示抑偏策略、属性数目和任务难度下都稳定出现，说明“if-语句级别”评测低估了真实部署风险，表明当前偏见基准需要覆盖更完整的代码建模任务。

Learning Reasoning World Models for Parallel Code

• 作者：Gautam Singh, Arjun Guha, Bhavya Kailkhura, Harshitha Menon
• arXiv URL：https://arxiv.org/abs/2604.20926

Abstract

虽然大型语言模型在串行代码生成方面表现突出，但面对并行代码仍然困难，原因是高质量并行代码训练数据稀缺。常见做法是引入与外部工具交互的编码代理，但工具调用代价高且在部分场景下不易使用，例如处理未完成代码时。本文提出并行代码世界模型（PCWM），让推理型 LLM 直接从并行源代码预测工具结果。我们设计了新型探索与数据生成流程，在多领域采样并行编码问题和候选实现，并通过工具执行记录数据竞争与性能行为。由此生成 hindsight reasoning traces，将源代码与观测到的工具结果建立因果关联。基于该数据微调后的世界模型在任务上取得明显提升：7B 模型的数据竞争结果预测从 64.3% 提升到 72.8%，8B 在性能分析任务从 49.3% 提升到 58.6%。当开源模型用于修复数据竞争时，引入世界模型反馈后，修复率较自反馈分别提高 2.7%–9.1%（7B）和 6.1%–11.1%（14B）。该结果表明，推理模型有潜力在并行编码代理中替代部分外部工具调用。

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

• 作者：Zhixin Zhang, Shabo Zhang, Chengcan Wu, Zeming Wei, Meng Sun
• arXiv URL：https://arxiv.org/abs/2604.20915

Abstract

Transformer 的自注意力在长序列上使推理成本随长度快速增长，推断时内存消耗成为瓶颈。固定内存替代方案（如 RNN、SSM）虽然压缩历史上下文，但会丢失长尾依赖；参数记忆类方法（如 test-time training）又容易过拟合于 token 级别投影，无法保持预训练 LLM 的因果上下文效应。本文提出 Absorber LLM，将长上下文保留建模为自监督的因果同步任务：在吸收历史上下文到参数后，无上下文模型在未来生成上应与带完整上下文的原模型保持一致。我们通过对齐更新模型与原模型的内部行为实现该目标，从而兼顾上下文吸收与泛化。实验在长上下文及流式基准上表明，Absorber LLM 在降低推理内存的同时，相比先前参数即记忆基线获得了更高准确率。

Promoting Simple Agents: Ensemble Methods for Event-Log Prediction

• 作者：Benedikt Bollig, Matthias Függer, Thomas Nowak, Paul Zeinaty
• arXiv URL：https://arxiv.org/abs/2604.21629

Abstract

本文比较了 n-gram 与神经模型（LSTM、Transformer）在流式事件日志下一步活动预测中的表现。合成模式和 5 个真实流程挖掘数据集实验显示，适当窗口的 n-gram 在准确率上可与神经模型相当但资源开销更低。与窗口化神经模型易波动不同，n-gram 更稳定；投票式集成可提升准确率，但增加并行推理开销。为此我们提出 promotion 算法，在推理阶段动态在两个活跃模型间切换，显著降低资源消耗，同时在真实数据上达到与非窗口化神经模型相当或更好的准确率。

Mind the Prompt: Self-adaptive Generation of Task Plan Explanations via LLMs

• 作者：Gricel Vázquez, Alexandros Evangelidis, Sepeedeh Shahbeigi, Radu Calinescu, Simos Gerasimou
• arXiv URL：https://arxiv.org/abs/2604.21092

Abstract

将 LLM 融入复杂软件系统时，人们期待其为不透明的 AI 流程（如自动任务规划）生成可理解解释。然而解释质量与可靠性高度依赖提示工程。由于缺乏对不同利益相关者如何形成和迭代提示的系统理解，工具难以实现提示流程的自动化。本文提出 COMPASS（COgnitive Modelling for Prompt Automated SynthesiS），将提示工程形式化为认知与概率决策过程。COMPASS 将不可观察的用户认知状态（如注意与理解、确定性、可见交互线索）建模为 POMDP，并从其合成的策略中实现解释与提示自适应生成。我们在两个异构网络物理系统案例上评估 COMPASS，在定量与定性上均展示了其在复杂任务规划中融合用户认知与反馈以生成解释的可行性。

Behavioral Consistency and Transparency Analysis on Large Language Model API Gateways

• 作者：Guanjie Lin, Yinxin Wan, Shichao Pei, Ting Xu, Kuai Xu, Guoliang Xue
• arXiv URL：https://arxiv.org/abs/2604.21083

Abstract

第三方 LLM API 网关正在快速成为访问多厂商模型的统一入口，但其路由、缓存与计费策略通常不透明，用户难以确认是否使用了宣称模型、响应是否忠于上游 API 以及账单是否符合公开定价。为弥补这一空缺，本文提出 GateScope，这是一个轻量级黑盒评测框架，用于度量商业化 LLM 网关的行为一致性与运行透明性。GateScope 在响应内容、双向对话性能、计费准确性和延迟特征四维度对网关进行审计，检测模型降级/切换、静默截断、计费错误、延迟不稳定等关键异常。我们在 10 个真实商业网关上的测量发现，期望行为与实际行为之间存在显著差距，包括静默模型替换、对话记忆退化、与官方定价偏离及不同平台间的延迟稳定性波动。

Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models

• 作者：Inderjeet Nair, Jie Ruan, Lu Wang
• arXiv URL：https://arxiv.org/abs/2604.20995

Abstract

对齐伪装（alignment faking）指模型在被监督场景下表现为对齐，在未受监督时又回归自身偏好，这一现象威胁安全且机制认知不足。现有诊断多采用高毒性且明显有害的场景，模型往往立即拒绝，从而无法观察其是否会在代价和监控压力下“反向偏离”。为此本文提出 VLAF 诊断框架，基于“价值冲突”假设，即在开发者策略与模型强烈持有的价值冲突时最易触发对齐伪装。VLAF 利用道德立场清晰且无明显立即有害性的场景，在多种价值取向下探测该冲突，并避免拒绝行为。实验表明，对齐伪装的发生率远高于此前报告，7B 规模模型也会出现此问题：在 olmo2-7b-instruct 上有 37% 的实例发生对齐伪装。我们进一步发现，监督条件下行为变化可近似沿表示空间的一条方向变化，因此可用单一对比驱动向量捕捉。该向量用于无标签、低开销的推理时缓解，在 olmo2-7b-instruct、olmo2-13b-instruct 与 qwen3-8b 上分别带来 85.8%、94.0% 和 57.7% 的对齐伪装降低。

形式化方法与程序验证

Automated LTL Specification Generation from Industrial Aerospace Requirements

• 作者：Zhi Ma, Xiao Liang, Cheng Wen, Rui Chen, Bin Gu, Shengchao Qin, Cong Tian, Mengfei Yang
• arXiv URL：https://arxiv.org/abs/2604.21715

Abstract

在安全关键航空航天软件的开发与验证中，线性时序逻辑（LTL）已被广泛用于从需求中提取复杂系统性质。然而，在工业场景中，将自然语言（NL）需求翻译为正式的 LTL 性质仍然既耗时又易出错，而且通常需要同时掌握航空航天控制工程与形式化方法的稀缺专业能力。现有的 NL2SPEC、NL2TL、NL2LTL 等工具只能自动化这一流程的部分环节，但在真实工业需求文档中经常失效，原因在于复杂领域术语以及隐式的时序和逻辑结构。为应对这些问题，本文提出 AeroReq2LTL 框架，用 LLM 自动化航空航天需求的 LTL 属性生成。该框架的两项关键工业创新是：一是通过数据字典把技术术语归一化为精确的原子命题；二是使用模板化需求语言，在翻译前显式化时序线索和逻辑关系。我们在真实的航空航天数据集上评估该方法，AeroReq2LTL 在 LLM 生成的 LTL 上达到 85% 的精确率和 88% 的召回率，且生成结果可直接被现有验证工具消费。

Verifying Machine Learning Interpretability Requirements through Provenance

• 作者：Lynn Vonderhaar, Juan Couder, Daryela Cisneros, Omar Ochoa
• arXiv URL：https://arxiv.org/abs/2604.21599

Abstract

机器学习工程吸收了大量软件工程与需求工程思想，但如可解释性这类非功能需求长期难以“可验”。本文提出以 ML provenance 作为实现基础，将模型训练与数据处理过程中的证据持久化，用于证明可解释性需求。保存 provenance 数据后，可将先前难以量化的解释性要求转化为可验证的功能需求；对这些功能需求进行检查即可间接验证可解释性。该方法为 ML 模型的可解释性验证提供了可操作路径。

SpecSyn: LLM-based Synthesis and Refinement of Formal Specifications for Real-world Program Verification

• 作者：Lezhi Ma, Shangqing Liu, Yi Li, Qiong Wu, Han Wang, Lei Bu
• arXiv URL：https://arxiv.org/abs/2604.21570

Abstract

程序验证需要大量跨过程规格，而手工构建完整规格代价高、耗时长。现有 LLM 方案虽有所进展，但在处理大型程序与评估规格强度上仍不足。本文提出 SpecSyn：先将输入程序切分为片段，再迭代生成中间规格，并通过语义非等价变异与对比鉴别机制对规格进行强化。实验证明，SpecSyn 的精度可维持在 90% 以上、召回高于 75%，并在 1365 个目标性质中成功处理 1071 个。该方法在真实开源程序验证任务中显著增强了可扩展性与可验证性。

Probabilistic Verification of Neural Networks via Efficient Probabilistic Hull Generation

• 作者：Jingyang Li, Xin Chen, Hongfei Fu, Guoqiang Li
• arXiv URL：https://arxiv.org/abs/2604.21556

Abstract

本文研究神经网络在概率分布输入下满足输出安全约束的概率。为求解受扰动输入下的安全概率区间，我们提出新框架，核心是高效构建安全/不安全概率壳。方法由三部分组成：基于回归树的状态空间细分、面向边界的采样策略、以及带概率优先级的迭代细化。该框架在 ACAS Xu 与火箭着陆控制等基准上均表现出优于现有方法的优势，且能输出安全概率的保守但可证明范围。

NEST: Network Enforced Session Types (Technical Report)

• 作者：Jens Kanstrup Larsen, Alceste Scalas, Guy Amir, Jules Jacobs, Jana Wagemaker, Nate Foster
• arXiv URL：https://arxiv.org/abs/2604.21795

Abstract

NEST（Network-Enforced Session Types）把应用层协议监控迁移到网络数据面执行，绕开传统在应用代码中埋点或封装的方式。我们从会话类型自动合成包级监控器，直接在数据平面执行协议约束，并扩展到处理丢包与乱序。基于 P4 的实现覆盖微服务与网络功能模型，在实验中表明网络级监控可在不修改业务代码的前提下执行具有实际复杂度的协议约束，强化运行时正确性保障。

Linear Constraints

• 作者：Arnaud Spiwack, Csongor Kiss, Jean-Philippe Bernardy, Nicolas Wu, Richard A. Eisenberg
• arXiv URL：https://arxiv.org/abs/2604.21467

Abstract

线性约束是 Haskell 类约束的线性对应物。线性类型能在编译期追踪一次性资源，但显式传递线性参数增加样板代码。线性约束将其抽象为可由编译器自动填充的“隐式线性参数”，并与约束求解器集成。该特性被形式化为一个合格类型系统，并扩展 GHC 的约束求解算法实现，保持可归约的 soundness；通过映射到 Linear Haskell 可验证性。修订扩展版本相较先前版本更简化，新增了若干应用场景。

Active Inference of Extended Finite State Machine Models with Registers and Guards

• 作者：Roland Groz, German Eduardo Vega Baez, Adenilso Simao, Catherine Oriat, Neil Walkinshaw, Michael Foster
• arXiv URL：https://arxiv.org/abs/2604.21378

Abstract

EFSM 兼顾数据与控制，可用于建模带内部变量的状态系统，但传统反向推断通常需要重置能力，或无法处理数据依赖分支。本文提出一种主动学习算法，在黑箱假设下推断带寄存器与守卫的 EFSM，显著弱化了传统方法对可重置和纯输入依赖的假设。该方法面向实际系统学习更真实的行为模型，为后续验证与检测提供更接近真实世界的抽象。

Trustworthy Clinical Decision Support Using Meta-Predicates and Domain-Specific Languages

• 作者：Michael Bouzinier, Sergey Trifonov, Michael Chumack, Eugenia Lvova, Dmitry Etin
• arXiv URL：https://arxiv.org/abs/2604.21263

Abstract

医疗 AI 监管（如 EU AI Act、FDA AI/ML 指南）要求决策支持不仅准确，还要可审计。现有临床决策 DSL 主要验证语法与结构正确性，却无法保证证据来源是否符合认知学意义要求。我们基于设计即契约思想，提出 meta-predicates（元谓词）来约束决策规则使用的证据类型。该框架定义包含目的、知识域、量纲和获取方法的证据类型系统，并在 AnFiSA 上实现验证链路。以 Brigham Genomics Medicine 协议和 Genome in a Bottle 的 560 万变量为例，决策树可映射为非对称级联，给出逐样本可追溯的审核路径；模型无论是人工编写还是 AI 生成，均可在部署前剔除不合规证据，补充了 LIME/SHAP 等事后解释方法的不足。

The Path Not Taken: Duality in Reasoning about Program Execution

• 作者：Eshgin Hasanov, Md Mahadi Hassan Sibat, Santu Karmaker, Aashish Yadavally
• arXiv URL：https://arxiv.org/abs/2604.20917

Abstract

尽管大语言模型在多类编码任务中表现突出，但其落地应用仍要求对程序执行有真正理解，而非停留在表层模式。现有基准多只测试针对特定输入的程序属性（如覆盖率、输出），导致动态程序推理评估过于狭窄并易受数据污染影响。我们认为理解程序执行应覆盖固有二元性：第一，给定输入预测程序可观测行为；第二，推断为达成特定行为目标输入如何应被修改。DexBench 构造了 445 对配对实例以同时评估这两条路径，并测试了 13 个 LLM。实验显示，双路径推理在区分不同模型的动态代码理解能力上具有更强辨别力。

软件测试与质量

Generalizing Test Cases for Comprehensive Test Scenario Coverage

• 作者：Binhang Qi, Yun Lin, Xinyi Weng, Chenyan Liu, Hailong Sun, Gordon Fraser, Jin Song Dong
• arXiv URL：https://arxiv.org/abs/2604.21771

Abstract

测试用例对开发与维护都至关重要，但实践中开发者通常依据隐含理解先写单测，后续才补齐缺失情景。仅按代码覆盖率生成测试无法充分反映真实需求，而需求常未文档化且隐含在设计与实现中。本文基于“开发者初始测试可视为可执行需求”的观察，提出 TestGeneralizer。该框架先提炼给定方法与示例测试背后的需求与场景，再生成可复用模板并实例化出多种场景，最终生成并细化可执行测试。我们在 12 个 Java 开源项目上对比三类基线，场景覆盖指标在变异测试和 LLM 评估下分别提升 31.66% 与 23.08%。

PrismaDV: Automated Task-Aware Data Unit Test Generation

• 作者：Hao Chen, Arnab Phani, Sebastian Schelter
• arXiv URL：https://arxiv.org/abs/2604.21765

Abstract

数据是现代企业核心资产，数据验证是保证下游应用可靠性的关键，但现有数据单元测试框架通常不区分具体消费任务，缺乏任务语义约束。我们提出 PrismaDV，这是一套结合下游任务代码与数据特征构建的复合式 AI 系统，用于识别数据访问模式并推断隐含假设，进一步生成可执行、与任务相关的数据单元测试。为适应不同数据集与任务，我们提出 SIFTA（Selective Informative Feedback for Task Adaptation），在极少执行反馈下优化提示词。我们在两个新基准（60 个任务、5 个数据集）上验证，PrismaDV 在反映数据错误对端到端任务影响方面持续优于基线；与 SIFTA 联用后，在提示词学习上还能超越手工提示和通用优化器生成的结果。论文同步发布了基准与原型实现。

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

• 作者：Qijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie
• arXiv URL：https://arxiv.org/abs/2604.21375

Abstract

自主 GUI 代理常见两个核心失败模式：在未完成真实任务时提前结束，以及陷入循环动作而无法恢复。我们提出 VLAA-GUI，围绕“停止—恢复—搜索”构建三个核心模块。完整验证器在每次结束前通过 UI 可观察标准检查完成性；循环中断器检测重复失败并切换交互策略；在线搜索模块调用具备检索能力的 LLM 生成未知流程的文本级方案，并按需调度编码与 grounding 代理。五类主干模型在两套 Linux/Windows 基准上均取得新高（OSWorld 上 77.5%，WindowsAgentArena 上 61.0%），且三模块消融均带来稳定增益，循环中断模块可显著降低动作浪费。

软件安全与漏洞治理

CrossCommitVuln-Bench: A Dataset of Multi-Commit Python Vulnerabilities Invisible to Per-Commit Static Analysis

• 作者：Arunabh Majumdar
• arXiv URL：https://arxiv.org/abs/2604.21917

Abstract

我们发布 CrossCommitVuln-Bench，汇总 15 个现实 Python 漏洞（CVE），其中可被攻击的条件跨越多个提交才逐步形成，每个单提交片段本身通过静态分析看似正常。每条漏洞都标注了贡献提交链、为何 per-commit 分析会错过的结构化解释，以及 Semgrep、Bandit 在单提交与累积扫描下的基线结果。核心发现是 per-commit 检测率仅 13%，即 87% 漏洞链对传统按提交静态分析不可见；即便累积扫描，检测率也仅 27%。该数据集与评估脚本公开，支持跨提交漏洞检测研究。

A Ground-Truth-Based Evaluation of Vulnerability Detection Across Multiple Ecosystems

• 作者：Peter Mandl, Paul Mandl, Martin Häusl, Maximilian Auch
• arXiv URL：https://arxiv.org/abs/2604.21111

Abstract

自动化漏洞检测工具在识别软件依赖中的安全漏洞方面应用广泛，但对这些工具进行评估仍然困难，因为漏洞数据源结构异构、标识符体系不一致，以及版本范围定义存在歧义。本文基于 Open Source Vulnerabilities（OSV）数据库构建并发布了一个人工整理的 ground-truth 数据集，用于把漏洞精确映射到具体软件包版本，并据此系统比较不同工具与服务的检测结果。由于 OSV 等漏洞数据库持续更新，本文所用数据集仅反映评估时刻的漏洞景观。为支持可复现性与后续研究，我们提供了一个开源工具，可依据本文方法从当前 OSV 数据库自动重建同类数据集。实验结果显示不同漏洞检测体系之间存在系统性差异，强调了透明化数据集构建对可复现安全实证研究的重要性。

Residual Risk Analysis in Benign Code: How Far Are We? A Multi-Model Semantic and Structural Similarity Approach

• 作者：Mohammad Farhad, Shuvalaxmi Dass
• arXiv URL：https://arxiv.org/abs/2604.21051

Abstract

软件安全依赖有效的漏洞检测与修补，但如何判断补丁是否真正消除了风险仍未充分研究。现有基准通常默认修补后的函数天然良性，忽略其仍可能保留残留风险的可能。本文基于 PrimeVul 的 vulnerable-benign 函数对，使用多个代码语言模型进行语义相似度建模，并结合基于 Tree-sitter 的抽象语法树结构分析形成统一的 Residual Risk Scoring（RRS）框架。该框架融合嵌入语义相似、局部 AST 结构相似与跨模型一致性信号，用于估计补丁后函数中的残留风险。实证表明，良性函数在语义和结构层面常与对应易受攻击版本高度相似，意味着风险可能持续存在。我们进一步发现，约 61% 的高 RRS 对在 13 类残留问题（例如空指针解引用、非安全内存分配）上存在风险，且通过 Cppcheck、Clang-Tidy 和 Facebook-Infer 的复核得到验证。这表明代码级相似度可作为指导后补丁人工复核优先级的实用信号。

Hidden Dependencies and Component Variants in SBOM-Based Software Composition Analysis

• 作者：Shawn Rasheed, Max McPhee, Lisa Patterson, Stephen MacDonell, Jens Dietrich
• arXiv URL：https://arxiv.org/abs/2604.21278

Abstract

SBOM 在供应链安全中愈发关键，但其价值依赖于组件身份与依赖关系的准确性。本文识别了两类常见错配：未显式建模的隐藏代码级依赖、以及扫描器难以一致识别的组件变体（克隆）。这类错配会导致不同 SCA 工具在漏洞报告与 VEX 处理上出现不一致，进一步放大风险判断差异。作者呼吁改进 SBOM 生成与消费中的依赖和身份建模，以提升跨工具协同治理效果。

Strategic Heterogeneous Multi-Agent Architecture for Cost-Effective Code Vulnerability Detection

• 作者：Zhaohui Geoffrey Wang
• arXiv URL：https://arxiv.org/abs/2604.21282

Abstract

代码漏洞检测常在准确率与成本之间权衡。本文提出 3+1 异构多代理架构：三个基于云的 DeepSeek-V3 专家从结构、模式、调试逻辑三视角并行分析代码，本地 Qwen3-8B 负责对抗式复核。我们用两层博弈建模框架 formalize 该设计（专家间协同博弈与质量验证对抗博弈），并在 NIST Juliet 262 个样本、14 类 CWE 上验证。结果 F1 达 77.2%，精度 62.9%，召回 100%，且与单一 LLM 或 Cppcheck 相比显著提升，且每样本成本仅 0.002 美元，代理式过滤使误报率明显下降并取得约 3 倍加速。

软件系统与基础设施

Can Large Language Models Assist the Comprehension of ROS2 Software Architectures?

• 作者：Laura Duits, Bouazza El Moutaouakil, Ivano Malavolta
• arXiv URL：https://arxiv.org/abs/2604.21699

Abstract

背景：ROS2 是目前最常见的机器人软件开发框架，但其去中心化的分布式架构包含大量组件，理解架构信息具有挑战。本文评估了 LLM 在帮助理解 ROS2 架构事实信息方面的作用。我们设计了一个可控实验，在 3 个不同规模的 ROS2 系统上向 9 个 LLM 提交 1,230 个面向架构问题的提示，并用 3 套真实系统监测结果构建真实标签。实验结果显示，所有模型平均正确率达 98.22%，其中 gemini-2.5-pro、o3、gemini-2.5-flash 最强，gpt-4.1 最弱但仍接近 95%。错误主要集中在最复杂系统（约 249 例）。该工作表明 LLM 可较好辅助 ROS2 架构理解，但复杂场景下仍有可见局限，不同模型在正确率、解释一致性和困惑度上差异显著，使用时应考虑任务敏感性。

Biomedical systems biology workflow orchestration and execution with PoSyMed

• 作者：Simon Süwer, Zoe Chervontseva, Kester Bagemihl, Jan Baumbach, Olga Tsoy, Andreas Maier
• arXiv URL：https://arxiv.org/abs/2604.20906

Abstract

生物信息学软件的快速增长使科研实践面对实用障碍：尽管统计与人工智能方法日益成熟，工具分散、文档不一致、依赖复杂、执行环境难以复现，使得复用已发表工具和改造既有工作流都十分耗时。PoSyMed 平台旨在提供可控的生物信息工具与工作流集成、组合与执行能力。该平台采用后端中心化架构，结合形式化工具描述、容器化的受控构建与运行流程、持久化工作流状态及基于对话的用户界面。LLM 被作为受限的语义助手接入，而非自治决策者，用于识别工具、给出工作流步骤建议与参数化支持，运行环境支持类型验证和人工监督。PoSyMed 目标是提升生物医学分析在可复现性、可追踪性和透明性方面的实践水平。我们给出系统架构并在代表性生物软件场景上评估了其工作流支持、交互设计与扩展性。

TorchGWAS : GPU-accelerated GWAS for thousands of quantitative phenotypes

• 作者：Xingzhong Zhao, Ziqian Xie, Islam, Sheikh Muhammad Saiful, Tian Xia, Chen, Cheng, Degui Zhi
• arXiv URL：https://arxiv.org/abs/2604.21095

Abstract

现代生物信息学流程，尤其在影像与表征学习场景中，常在单个队列上产生数千到上万条定量表型。在这种情况下，逐个对表型进行 GWAS 分析会迅速成为计算瓶颈。现有 GWAS 工具在单表型分析上效果良好，但并未针对同一基因型矩阵被大规模表型面板反复使用的高通量场景优化。本文提出 TorchGWAS，通过硬件加速实现大规模表型面板的高通量关联检验。当前公开版本提供稳定的 Python 与命令行工作流，支持线性 GWAS 与多变量表型筛选，兼容 NumPy、PLINK 与 BGEN 输入，并对表型与协变量表按样本 ID 自动对齐，在框架内完成协变量校正。基准实验显示，在 8.9M 标记和 23000 样本下，fastGWA 在 AMD EPYC 7763（64 核）CPU 上每个表型约需 100 秒，而 TorchGWAS 可在单块 NVIDIA A100 GPU 上用 10 分钟完成 2048 个表型、20 分钟完成 20480 个表型，对应约 300 到 1700 倍的吞吐提升。该框架使大规模高通量 GWAS 筛查在表型密集场景中可行。

Quantum-HPC Software Stacks and the openQSE Reference Architecture: A Survey

• 作者：Amir Shehata, Brian Austin, Tom Beck, Lukas Burgholzer, Alex Chernoguzov, Spencer Churchill, Andrea Delgado, Yasuko Eckert, Jeffery Heckey, Kevin Kissell, Katherine Klymko, Josh Moles, Thomas Naughton, Lee James O’Riordan, Christian Ortiz Pauyac, Guen Prawiroatmodjo, Ermal Rrapaj, Jiri Schindler, Laura Schulz, Sebastian Stern, Tyler Takeshita, Miwako Tsuji, Aleksander Wennersteen, Travis Humble, Martin Schulz
• arXiv URL：https://arxiv.org/abs/2604.20912

Abstract

量子计算资源正被越来越多地纳入高性能计算（HPC）和云环境，但量子高性能计算（QHPC）软件栈依然往往彼此隔离、专有且缺少统一接口，尤其在运行时、资源管理、编排与执行层面。本文分析了 9 个生产级 QHPC 栈，归纳设计模式和新兴需求，覆盖部署模型、应用交互模式、SDK 支持与容错运行就绪度。调研表明，在运行时抽象、资源管理、互连语义和可观测性方面存在稳定一致需求。基于上述发现，我们提出 openQSE（open Quantum-HPC Software Ecosystem）参考架构，作为统一状态实践的第一步。openQSE 通过定义明确的层次边界，使不同实现可以互操作，同时保留部署弹性；架构设计同时兼容当前 NISQ 负载和未来容错量子计算体系，而无需变更上层应用接口。

Institutionalizing Best Practices in Research Computing: A Framework and Case Study for Improving User Onboarding

• 作者：Ayush Chaturvedi, Rob Pokorney, Elyn Fritz-Waters, Charlotte Rouse, Gary Bax, Daryl Spencer, Craig Pohl
• arXiv URL：https://arxiv.org/abs/2604.21898

Abstract

全球各地科研计算中心在面向新用户时常见“资料多而上手难”问题：专家和研究人员面对复杂基础设施与多样化软件栈时缺乏清晰入口。本文提出面向科研计算中心的新用户入职改进框架，结合流程、文档与支持机制进行系统化设计，并在圣路易斯华盛顿大学的科研基础设施服务中开展案例验证。结果显示该框架能显著缓解新用户对系统资源与软件服务的理解负担，提高首体验收和持续使用效率。

治理、流程与软件工程社会研究

Structural Quality Gaps in Practitioner AI Governance Prompts: An Empirical Study Using a Five-Principle Evaluation Framework

• 作者：Christo Zietsman
• arXiv URL：https://arxiv.org/abs/2604.21090

Abstract

AI 治理实践越来越多地依赖自然语言提示来约束和引导 AI 代理的行为。此类提示实质上是一种可执行规范，定义了代理的职责边界和质量标准。尽管如此，至今仍缺乏系统框架来评估治理提示在结构层面的完整性。我们基于可计算性理论、证明理论与贝叶斯认知论提出一个五原则评估框架，并将其应用于 34 份来自 GitHub 的公开治理文件。评估结果显示，约 37% 的文件-模型组合未达到结构完整性阈值，缺失最常见的维度是数据分类与评估量表标准。该现象说明，实践中编写的治理提示具有可复现的结构性模式，可被自动化静态分析检测并修复。我们进一步讨论了 AI 辅助开发中的需求工程含义，指出了现有 this http URL 约定中一个此前未文档化的构件分类缺口，并提出了后续工具化支持方向。

Beyond the Binary: Motivations, Challenges, and Strategies of Transgender and Non-binary Software Engineering Students

• 作者：Isabella Graßl
• arXiv URL：https://arxiv.org/abs/2604.20866

Abstract

当软件由更多元的身份和经验背景人士设计时，通常更具包容性，也更能覆盖更广泛的用户需求。然而，跨性别与非二元软件工程学生在成长为这一类创造者的过程中，可能面临独有的挑战。尽管已有研究关注专业软件工程中的性少数群体，但在高等教育阶段的研究仍明显不足，而该阶段对保障职业机会公平与防止技术行业排斥至关重要。本文基于对 13 位跨国跨性别和非二元软件工程学生的半结构化访谈，考察其入门动机、遭遇障碍及支持策略。结果表明，性别认同对其择业意愿具有间接影响，吸引因素包括远程工作的吸引力与希望构建更包容技术的个人愿望。受访者未普遍报告大学内的直接歧视，但多数提及言语侮辱、偏见、缺乏包容和敌意，这些都负面影响其心理健康。其成因多与社会文化规范和缺乏代表性相关。尽管面临阻碍，学生仍普遍坚定就读决心，并呼吁更强的制度支持、结构调整与代表性提升。

目录