软件工程论文速递 | 26.04.30 日报: 30篇新论文速递

• Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
• DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures
• A Pattern Language for Resilient Visual Agents
• From Mirage to Grounding: Towards Reliable Multimodal Circuit-to-Verilog Code Generation
• LLM-as-a-Judge for Human-AI Co-Creation: A Reliability-Aware Evaluation Framework for Coding
• PuzzleMark: Implicit Jigsaw Learning for Robust Code Dataset Watermarking in Neural Code Completion Models
• ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models
• REBENCH: A Procedural, Fair-by-Construction Benchmark for LLMs on Stripped-Binary Types and Names (Extended Version)
• Pragmos: A Process Agentic Modeling System
• To Diff or Not to Diff? Structure-Aware and Adaptive Output Formats for Efficient LLM-based Code Editing
• ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning
• GenAI in Software Engineering: The Role of Technology Acceptance Models

软件质量、缺陷治理与社区协同

• Unsafe and Unused? A History of Utility Code in Mature Open Source Projects
• An Empirical Evaluation of Code Smell Detection in Angular Applications
• Requirements Debt in AI-Enabled Perception Systems Development: An Industrial RE4AI Perspective
• Multifaceted Hero Developers and Bug-Fixing Outcomes Across Severity
• How Code Representation Shapes False-Positive Dynamics in Cross-Language LLM Vulnerability Detection
• Understanding Bugs in Template Engine-Based Applications: Symptoms, Root Causes, and Fix Patterns
• Tail-aware N-version Machine Learning Models for Reliable API Recommendation

软件工程过程、治理与组织实践

• Beyond Code, We Are People: A Systematic Mapping of 25 Years of Literature on Soft Skills in Agile Development Teams
• I hope we don’t do to trust what advertising has done to love
• Feature-Centric Methodology for Analyzing Cross-Chain NFT Migration Compatibility
• Test Before You Deploy: Governing Updates in the LLM Supply Chain
• The Grand Software Supply Chain of AI Systems
• A Longitudinal Analysis of Good First Issue Practices and Newcomer Pull Requests in Popular OSS Projects
• One Size Fits All? An Empirical Comparison of ADR Templates regarding Comprehension, Usability, and Ease of Adoption

系统软件与平台工程

• A Monadic Implementation of Functional Logic Programs
• Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes
• Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale
• treVM: Tiny Rust Embedded Virtual Machines with WASM on Variable Resource-Constrained Hardware

研究方向：大模型驱动的软件工程与编程代理

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

• 作者：Chenxin Li; Zhengyang Tang; Huangxin Lin; Yunlong Lin; Shijue Huang; Shengyuan Liu; Bowen Ye; Rang Li; Lei Li; Benyou Wang; Yixuan Yuan
• arXiv: https://arxiv.org/abs/2604.28139v1

Abstract

大语言模型代理被期望在软件工具、业务服务与本地工作区之间完成端到端工作单元。然而，许多代理基准在发布时固定任务集合，并主要只评估最终回复，这使得它们难以评估代理对真实工作流需求的动态变化，也难以验证任务是否真正被执行。本文提出 Claw-Eval-Live，这是一种面向工作流代理的动态基准，将可刷新信号层（依据公开工作流需求信号跨版本更新）与可复现的时间戳化版本快照分离。每个版本基于当前版本中的 ClawHub Top-500 技能构建控制任务，包含固定的依赖工件、服务、工作区和评分器。评分时，Claw-Eval-Live 记录执行轨迹、审计日志、服务状态与运行后工作区产物：当证据充分时使用确定性检查，仅在语义维度使用结构化的 LLM 判分。每个版本包含 105 个任务，覆盖控制型业务服务与本地工作区修复，采用统一公开 pass 规则评测 13 个前沿模型。实验显示工作流自动化距离可靠仍有明显差距，当前最佳模型任务通过率仅 66.7%，且无模型超过 70%。故障集中在特定任务族与执行面，HR/管理/多系统业务工作流长期是瓶颈，本地工作区修复相对容易但未饱和。榜单排名不充分，因为通过率接近的模型在总体完成行为上仍可能差异显著，且任务层面的区分主要集中在中间难度段。研究表明工作流代理评测应同时以外部新需求和可验证的代理行为为基础。

DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures

• 作者：Sigma Jahan; Saurabh Singh Rajput; Tushar Sharma; Mohammad Masudur Rahman
• arXiv: https://arxiv.org/abs/2604.28118v1

Abstract

Transformer 模型已广泛用于关键 AI 应用，但其注意力机制、投影等内部组件中的故障常常在不报运行时错误的情况下静默降低行为质量。现有故障诊断方法多聚焦于通用深度神经网络，难以识别导致观测症状的具体 transformer 组件。本文提出 DEFault，一种分层学习型诊断技术，包含三个抽象层：首先检测是否存在故障，其次将故障分类为 12 种 transformer 特有类别（覆盖注意力内部机制和外围架构组件），最后从最多 45 种机制中定位根因。为支撑训练与评估，作者构建 DEFault-bench 数据集，基于系统化变异测试生成 3,739 条标注实例，覆盖 7 个 transformer 模型和 9 个下游任务（使用作者构建的 DEForm 变异技术）。DEFault 在推理阶段按单个 transformer 组件观测运行行为，并依据由架构导出的故障传播图（FPG）组织这些观测，再通过原型匹配与监督对比学习输出可解释诊断。实验中，DEFault 在 DEFault-bench 上的检测 AUROC 超过 0.96，分类与根因诊断的 Macro-F1 均达到 0.85（编码器与解码器架构均适用）。开发者实验中，21 位实践者在使用 DEFault 后，选择正确修复动作的准确率从 57.1% 提升到 83.3%。

A Pattern Language for Resilient Visual Agents

• 作者：Habtom Kahsay Gidey; Alexander Lenz; Alois Knoll
• arXiv: https://arxiv.org/abs/2604.28001v1

Abstract

将多模态基础模型纳入企业生态会带来基本的软件架构难题：架构师必须在 VLA（vision-language-action）模型的高延迟与非确定性特征、以及企业控制回路对严格确定性和实时性的要求之间做权衡。本文提出一套面向视觉代理的架构模式语言，将快速确定性的反射行为与缓慢概率型监督分离。该语言包含四类架构设计模式：1）混合能力整合（Hybrid Affordance Integration）；2）自适应视觉锚定（Adaptive Visual Anchoring）；3）视觉分层综合（Visual Hierarchy Synthesis）；4）语义场景图（Semantic Scene Graph）。

From Mirage to Grounding: Towards Reliable Multimodal Circuit-to-Verilog Code Generation

• 作者：Guang Yang; Xing Hu; Xiang Chen; Xin Xi
• arXiv: https://arxiv.org/abs/2604.27969v1

Abstract

多模态大模型越来越多地被用于将视觉内容转换为代码，例如把 UI 草图转为 HTML、把科学图表转为 Python 脚本。电路图可视作一种面向硬件的可视领域特定语言，它编码了时序、拓扑和位级语义，这些内容在肉眼难以直接识别，但一旦流片会直接影响安全性。因此，将电路图转写为寄存器传输级（RTL）代码是对“视觉到代码”生成能力的一次严苛可靠性测试。作者发现了一种“幻觉（Mirage）”现象：将电路图替换为空白图像后，Pass@k 不降反升，因为模型并未充分利用视觉输入，而是借助模块头标识符语义检索通用 RTL 模板。这构成了一类新的隐蔽缺陷，直接削弱了 MLLM 的可信性。为了量化该效应，作者构建 C2VEVAL，并在配对的 Normal/Anony 协议下评估 8 个 MLLM，其中 Anony 模式会对图和模块头中的全部标识符匿名化；所有模型的 Anony 分数显著下降，证实 Normal 模式准确率很大部分来自 Mirage。随后提出 VeriGround（4B），在训练中引入标识符匿名化、拒答增强与 D-ORPO（决策导向 ORPO）偏好对齐，以上调关键的 generate-or-refuse token。VeriGround 在 Normal/Anony 下分别达到 46.11%/42.51% 的 Functional Pass@1，误拒率为 1.20%/0.00%，在空白图像上的拒答率均超过 92%。仅用 4B 参数，VeriGround 在 Normal 下接近 GPT-5.4，在 Anony 下显著优于全部基线，表明其更依赖真实视觉语义。

LLM-as-a-Judge for Human-AI Co-Creation: A Reliability-Aware Evaluation Framework for Coding

• 作者：Md Faizul Ibne Amin; Yutaka Watanobe; Daniel M. Muepu; Haruto Suzuki; Kenta Nanaumi; Md Mostafizer Rahman
• arXiv: https://arxiv.org/abs/2604.27727v1

Abstract

LLM 既被用作开放式输出的裁判，又作为 AI 辅助编程中的共创伙伴，但在人机共创场景下，评测仍不充分：评估需要可靠、可比且可解释，且必须跨多轮交互。为此，本文提出一套以评分细则驱动的 LLM-as-a-Judge 框架，面向编码和软件工程中的竞赛式人机共创。该框架使用受约束的判分输出模式、验证与修复机制，并按用户与问题进行分组划分以避免轨迹泄漏，同时保留参与者级 NONBLIND 上下文。多个 LLM 裁判通过多指标协议评估：包括区分度（ROC-AUC、PR-AUC）、阈值决策质量（MCC）、概率可靠性（LogLoss、Brier 分数、ECE）以及裁判间一致性（Cohen、Fleiss κ）。在轨迹层面，作者进一步考察每轮置信度、Success-at-Turn、time-to-success、修订 churn 与 CodeBLEU。结果显示共创成功多集中于前期，首观测轮次的 Success-at-Turn 即升至 0.8533，在第 6 轮稳定到 0.8641；修订行为仍然异质，既可为增量优化，也可为大幅重构。裁判端最佳模型在 ROC-AUC、PR-AUC、MCC 上分别达 0.5937、0.6904、0.5000，但跨裁判一致性整体仍有限（平均成对 Cohen κ=0.1592，Fleiss κ=0.0696）。该工作提供了可审计、可复现的评测方法，将可靠性感知的 LLM 裁判与人机共创轨迹分析结合，为后续 AI 辅助编码和软件工程评测提供实用模板。

PuzzleMark: Implicit Jigsaw Learning for Robust Code Dataset Watermarking in Neural Code Completion Models

• 作者：Haocheng Huang; Yuchen Chen; Weisong Sun; Peizhuo Lv; Yuan Xiao; Chunrong Fang; Yang Liu; Xiaofang Zhang
• arXiv: https://arxiv.org/abs/2604.27677v1

Abstract

高质量代码数据集的构建与标注投入巨大，因此其价值很高但也面临严重未授权使用风险。现有数字水印多基于共现模式，鲁棒性不足，易于被检测和移除。本文提出 PuzzleMark，一种用于代码数据集的鲁棒水印方法。为降低水印暴露风险，PuzzleMark 采用基于代码复杂度的载体选择策略，评估并挑选适合作为水印承载片段的代码片段。为增强鲁棒性，提出新型拼接模式替代传统共现模式，并通过变量名拼接实现两种水印策略。该方法按代码内在特征自适应嵌入水印，在保持低干扰的同时提升隐蔽性。验证时，PuzzleMark 在黑箱设置下使用 Fisher 精确检验对可疑模型进行检测。实验证明，Verification 成功率达 100%，假阳性率为 0%，并且对模型性能影响可忽略。人类评测和四类主流检测方法表明，该方法隐蔽性强，平均可疑率 ≤0.24，平均召回率 ≤30.41%。该方法为代码数据集知识产权提供强保护，并为后续研究提供方向。

ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models

• 作者：Jiasheng Zheng; Xin Zheng; Boxi Cao; Pengbo Wang; Zhengzhao Ma; Qiming Zhu; Jiazhen Jiang; Yaojie Lu; Hongyu Lin; Xianpei Han; Le Sun
• arXiv: https://arxiv.org/abs/2604.27467v1

Abstract

代码沙箱已成为推动大语言模型编码能力的重要基础设施，既用于强化学习训练，也用于模型评测，因为它可以提供可验证反馈。但现有系统在高并发场景下常无法兼顾准确验证与效率。本文提出 ScaleBox，一种高保真且可扩展的系统，面向大规模代码训练中的验证瓶颈。ScaleBox 引入自动化特判器（special-judge）的生成与管理、跨测试用例的细粒度并行执行与无缝多节点协同，以及用于可复现基准测试的配置驱动评测套件。实验显示 ScaleBox 显著提升了代码验证准确率与效率。进一步的 RLVR 实验表明，ScaleBox 大幅提高了 LiveCodeBench 性能与训练稳定性，显著优于基于启发式匹配的基线。该平台通过高可靠、高吞吐的验证基础设施，促进了大规模代码训练研究与开发更有效地进行。

REBENCH: A Procedural, Fair-by-Construction Benchmark for LLMs on Stripped-Binary Types and Names (Extended Version)

• 作者：Jun Yeon Won; Xin Jin; Shiqing Ma; Zhiqiang Lin
• arXiv: https://arxiv.org/abs/2604.27319v1

Abstract

近年来大语言模型进展显著，已在函数/变量名恢复、类型推断等安全逆向工程任务中广泛应用。尽管研究增长迅速，进展仍受制于缺乏统一数据集：现有工作依赖不同数据源、预处理流程和评测指标，导致方法之间无法公平比较，也难以准确把握 LLM 在二进制分析中的真实能力。为解决这一问题，论文提出 REBench——面向反汇编逆向任务的综合基准数据集。REBench 整合并扩展现有数据集，包含数亿行源代码和跨多架构、多优化级别的大量二进制样本。该基准采用知识库驱动方法，在字节级记录堆栈信息以生成真实标签，在保持任务难度的同时保持普适性，避免引入偏置。基于此可在不同任务间进行公平评测。将 REBench 应用于 LLM 逆向分析性能测评表明，复杂任务上仍存在明显困难。

Pragmos: A Process Agentic Modeling System

• 作者：Pedro-Aarón Hernández-Ávalos; Luciano García-Bañuelos
• arXiv: https://arxiv.org/abs/2604.27311v1

Abstract

LLM 显著改变了软件工程中的建模任务。针对业务流程管理（BPM），研究界正探索从文本直接推导过程模型的方法：既有方法可能是聊天辅助式、迭代文本建模，也有完全自动化建模助手。作者认为流程建模本质上复杂，黑盒式方案难以有效胜任，主张将其视为开放式对话活动，由人类与 LLM 交互协作完成。本文将建模任务拆解为一系列可管理步骤，每步产出中间产物并明确记录决策理由。建模过程中逐步揭示行为关系以引导模型构建；考虑到 LLM 对复杂依赖推理的局限，作者结合领域内专用工具依据行为关系对流程模型进行结构化处理。该混合方法可生成可验证、可解释且演进式的模型。论文给出研究议程并提出原型系统 Pragmos，展示 LLM 与人类用户可作为领域专家与建模专家协作，共同通过结构化、可解释流程逐步共同建模。

To Diff or Not to Diff? Structure-Aware and Adaptive Output Formats for Efficient LLM-based Code Editing

• 作者：Wei Cheng; Yongchang Cao; Chen Shen; Binhua Li; Jue Chen; Yongbin Li; Wei Hu
• arXiv: https://arxiv.org/abs/2604.27296v1

Abstract

LLM 在代码编辑中应用日益广泛，但目前主流的“生成完整代码”模式带来严重效率瓶颈，不利于低延迟、低成本的人机交互式编程助手。尽管多数研究聚焦于模型规模扩展，输出格式本身在训练中长期被忽视。作者系统分析了传统 diff 格式，发现脆弱的偏移和碎片化 hunk 结构使得 LLM 难以自然生成。为解决该问题，提出 BlockDiff 与 FuncDiff 两种结构感知 diff 格式，将修改表示为控制结构、函数等语法上连贯单元的块级重写。此外，提出 AdaEdit 一种通用自适应策略，让 LLM 动态选择最节省 token 的输出方式（给定 diff 格式与完整代码之间）。大量实验表明，AdaEdit 结合结构感知 diff 可在保持接近完整代码生成准确性的同时，将长序列编辑任务的延迟与成本降低超过 30%。

ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning

• 作者：Chengcao Yang; Jun Chen
• arXiv: https://arxiv.org/abs/2604.27644v1

Abstract

本文提出从“学习回答”转向“学习提问”：语言模型是否能够生成可验证的问题、给出解答并在无人监督下把反馈转为自我提升？论文提出 ANCORA，一个锚定课程式的自博弈框架。统一策略在 Proposer 与 Solver 之间交替：Proposer 生成新规范，Solver 给出可验证解；模型训练依赖三类机制：跨规范/跨求解尝试的双层群体相对更新，先用迭代自蒸馏 SFT 将基模型投影到有效输出流形后再进行 RL，以及由 UCB 驱动的课程 DAG，只保留经 Solver 严格验证且新颖的规范进行扩展。因稀疏验证反馈会导致 Proposer 崩塌，以上稳定机制是必需的。将 ANCORA 在 Verus 环境中实例化时，Dafny2Verus 的 pass@1 从 26.6% 的 SFT 基线提升到 0.815 的时序训练测试性能；在零样本测试下，优于 PSV 基线 15.8 个点，即使 PSV 采用 1-shot 推理。迁移实验中，用 Dafny2Verus 种子训练后在 MBPP 与 HumanEval 上的 pass@1 分别达到 36.2% 和 17.2%。

GenAI in Software Engineering: The Role of Technology Acceptance Models

• 作者：Oscar Johansson; Jürgen Börstler; Nauman bin Ali
• arXiv: https://arxiv.org/abs/2604.27642v1

Abstract

越来越多组织希望将生成式 AI（GenAI）融入软件开发流程。技术采纳模型（例如 UTAUT）通常用于识别新技术在个体层面的采用障碍，可促进向 GenAI 的组织转型；但在软件工程研究中应用有限。本文以 UTAUT 为例，审视 GenAI 在软件工程中的采用前景与未来研究方向。作者回顾了 UTAUT 基础与软件工程相关文献，并分析其在 GenAI 场景中的新兴应用。结果归纳了三项优先议题：其一，界定并修正构念以覆盖 GenAI 的特性与变革性影响；其二，改进操作化实践以提升构念效度与跨研究可比性；其三，结合贝叶斯方法，以整合先验知识、迭代模型更新和情景模拟来支持小样本推断。结论指出 UTAUT 与贝叶斯分析可结合以更好理解 SE 中 GenAI 使用的个体层障碍，但仍需引入更多理论框架。

研究方向：软件质量、缺陷治理与社区协同

Unsafe and Unused? A History of Utility Code in Mature Open Source Projects

• 作者：Brandon Keller; Kaitlin Yandik; Angela Ngo; Andy Meneely
• arXiv: https://arxiv.org/abs/2604.28146v1

Abstract

文件名是一种向同伴快速传达源码信息的手段，其中一种常见约定是用 util，通常被理解为 utility，即该文件可能具有通用或可复用价值。许多项目大量使用该命名惯例，例如 Apache Tomcat 的路径名中有 925 个包含 util 的文件，占源码文件总数的 17.9%。尽管这种命名意图在于减少重复代码并降低维护负担，实际工具代码在生命周期中的命运是什么？项目是否会随着成熟而减少 util 代码？这些 util 文件主要被其他同事持续使用，还是仅被原作者维护和使用？本文旨在帮助开发者避免创建“不安全且未被使用”的 util 文件。作者对七个长周期开源项目（Linux kernel、Django、FFmpeg、httpd、Struts、systemd、Tomcat）进行纵向挖掘研究，在 30 天时间步上共形成 1773 个快照，结合命名重构跟踪观察 util 文件生命周期。研究分析了 util 使用情况、复杂度、开发者协作与安全性的相关性。结果显示，在这些项目中，util 文件在漏洞相关性上可高达非 util 文件的 2.75 倍，而每个项目固有的命名习惯并不能解释其长期普遍性，反而体现了更广泛的开发者意图，对理解软件开发的社会技术特征具有价值。

An Empirical Evaluation of Code Smell Detection in Angular Applications

• 作者：Maykon Nunes; Emanuel Coutinho; Carla Bezerra; Ivan Machado
• arXiv: https://arxiv.org/abs/2604.27893v1

Abstract

Angular 是开发大型动态 Web 应用的常见框架。项目规模和复杂度增长带来架构管理与模块化维护压力，常导致设计缺陷，即代码异味。相比已有较多 React 异味研究，Angular 特有异味及其表现仍缺乏系统认识。本文通过灰色文献综述整合社区讨论与技术资料，识别了 11 种 Angular 代码异味，其中 6 种也存在于 React 系统，表明部分异味具跨框架共性。作者对每类异味进行分析、举例并按技术特征分组，并基于此构建了一个自动静态分析工具。该工具在手工标注数据集上评估，使用标准信息检索指标，结果显示所有异味检测 F1 分数均达 0.89–1.00，准确率均高于 0.88。研究揭示了组件过载、逻辑重复和模板绑定低效等反复出现的问题，为未来实证研究和检测工具的发展奠定了基础。

Requirements Debt in AI-Enabled Perception Systems Development: An Industrial RE4AI Perspective

• 作者：Hina Saeeda; Soniya Abraham
• arXiv: https://arxiv.org/abs/2604.27825v1

Abstract

AI 融入汽车感知系统后，需求由静态规格转变为持续演化实体，受数据、模型与运行环境共同塑造。当这些变化未被持续记录、验证和追踪时，会积累为“需求债”（Requirements Debt，ReD），这是技术债的一种尚待重视的子类型。本文从工业应用视角提出并实证考察了 AI 驱动汽车感知系统生命周期中功能与非功能需求如何共同导致并传播 ReD。研究通过 16 次半结构化访谈（来自 13 家汽车公司与 3 个欧洲研究机构）并采用主题分析。作为首批将技术债理论与 RE4AI 连接的实证之一，工作识别了关键机制：

• 功能需求演化（算法更新、传感器融合、架构变更、实时约束）会引发语义漂移、验证积压与集成债务，尤其当验证滞后于快速迭代时；
• 非功能需求演化（安全、网络安全、可靠性、可扩展性、透明性、可信赖性）会带来保证性滞后、合规偏移及透明性/可靠性债务，且随标准与伦理预期变化而加剧。

这些机制在数据、模型与系统产物中相互作用并传播 ReD，削弱安全关键感知系统的可审计性、可靠性与认证就绪性。

Multifaceted Hero Developers and Bug-Fixing Outcomes Across Severity

• 作者：Amit Kumar; Mahen Gandhi; Meher Bhardwaj; Hrishikesh Ethari; Sonali Agarwal
• arXiv: https://arxiv.org/abs/2604.27754v1

Abstract

开源项目往往依赖一小群高活跃“核心/英雄”开发者。先前研究显示这类开发者在许多 OSS 和企业项目都普遍存在，但“谁是英雄”高度依赖于使用的贡献度量指标。基于代码贡献指标可以识别偏向实现的开发者，基于讨论类指标则突出协调沟通行为，两类指标捕捉到不同的贡献面向。为更细致刻画这一现象，本文对 77 个 Apache 项目进行测量敏感研究，采用三种技术指标（提交数、不同文件数、代码变更量）与两种社会性指标（issue 评论数、评论过的 issue 数）。研究比较了英雄比例、不同英雄集合交叠以及按严重度划分的缺陷修复率和重开率。结果显示英雄开发者在所有指标下都存在，但不同指标识别的人群差异很大；技术英雄与社会英雄集合的 Jaccard 重叠仅为 0.10。交叉指标异质性明显：技术英雄中 71.4% 具有较强社会活跃度，而社会英雄中仅 24.2% 具有较强技术活跃度。尽管整体修复率和重开率差异不大，英雄类别在不同严重度和评估指标下的排序存在变化，说明“英雄”不是单一、与指标无关的角色。采用多维视角可更可靠理解关键贡献者，并更好支持开发者优先级管理与按严重度的缺陷分派。

How Code Representation Shapes False-Positive Dynamics in Cross-Language LLM Vulnerability Detection

• 作者：Maofei Chen; Laifu Wang; Yue Qin; Yuan Wang; Bo Wu; Dongxin Liu
• arXiv: https://arxiv.org/abs/2604.27714v1

Abstract

跨语言场景下，代码表示形式如何影响 LLM 漏洞检测的误报行为仍缺乏理解。本文系统改变训练强度与代码表示方式，在训练与推理阶段对比原始源代码文本与剪裁后的抽象语法树（AST）表示，采用两种 8B 参数模型（Qwen3-8B 与 Llama 3.1-8B-Instruct），在 NIST Juliet C/C 数据上微调，并分别在 Java（OWASP Benchmark v1.2）和 Python（BenchmarkPython v0.1）上评估。结果表明跨语言误报率由训练时与推理时表示共同决定。纯文本微调会单调提高误报率（Qwen3-8B 由 0.763（zero-shot）到 0.866（pilot）再到 1.000（full-scale）），而 F1 几乎不变（0.637–0.688），掩盖了性能退化。作者认为主要机制是表面线索记忆：文本微调让模型记住 C/C 特有 API 名称和语法习惯，进而在目标语言代码中误触发。一个跨表示探针——将文本训练权重直接应用于 AST 输入且不重训——显示 Qwen3-8B 的误报率从 0.866 降至 0.583，37.2% 的误报被 AST 输入转为真阴性。直接在 AST 上微调并未保留该收益（FPR 至少 0.970），因为线性化仍引入结构性表面线索。该模式在两类模型中复现。作者据此建议在上线前加入一致性门控，让告警经文本和 AST 两条路径同时通过，以减少误报敏感场景中的风险（代价是召回率下降）。

Understanding Bugs in Template Engine-Based Applications: Symptoms, Root Causes, and Fix Patterns

• 作者：Kai Gao; Yu Sun; Chang-ai Sun
• arXiv: https://arxiv.org/abs/2604.27692v1

Abstract

模板引擎已成为现代软件生态中的关键组成部分，支持诸如 Web 开发、基础设施即代码（IaC）与数据工程等领域结构化文档和脚本的生成。模板引擎应用中的多语言组合、模糊的数据流、延迟验证和复杂集成，使其缺陷诊断与修复更具挑战。既有研究多聚焦安全问题，应用层面的缺陷调查却不足。本文首次对模板引擎应用缺陷进行系统研究，分析了 5 种编程语言中 15 个模板引擎的 1,004 条应用缺陷，识别了主要症状、根因和常见修复模式。发现异常渲染结果（如意外输出或空白输出）最常见，比例为 48.61%，且常表现为难以定位的静默失败。本文识别出 17 类根因，主要包括语法误用、数据上下文不匹配和集成不兼容。进一步发现，尽管 67.92% 的缺陷可在模板内修复，但超过 20% 需要修改宿主端逻辑才能解决数据上下文问题。基于这些发现，作者提出了面向工具设计者、实践者和研究者的可操作建议，并基于 Jinja 实现两个原型工具，以支持 TE 应用开发与调试。

Tail-aware N-version Machine Learning Models for Reliable API Recommendation

• 作者：Aoi Matsuda; Fumio Machida; David Lo
• arXiv: https://arxiv.org/abs/2604.27647v1

Abstract

机器学习驱动的 API 推荐能帮助开发者快速识别合适 API，但训练数据常呈长尾分布，导致对低频尾部 API 的推荐不可靠。为此，作者提出 NvRec（N-version API Recommendation），通过并行使用 N 个不同版本的模型来抑制含尾部 API 的不可靠候选，提高 API 序列推荐可靠性。方法为各候选模型建立关于单个 API 方法的性能画像，并结合其尾部特性，在推理时剔除不可靠结果。作者使用 CodeBERT、CodeT5、MulaRec、UniXcoder、CodeT5+ 实现五模型 NvRec，并在可编译 Java 项目构建的公开基准上验证。三模型配置（CodeT5/MulaRec/UniXcoder）在高可信候选上多数投票可达 83.8% 真正接受率，但拒绝率为 80.7%；五模型配置采用简单多数投票时可达到 83.1% 真正接受率，且拒绝率降至 69.0%，总体上在准确性和覆盖率之间取得更优衡量。

研究方向：软件工程过程、治理与组织实践

Beyond Code, We Are People: A Systematic Mapping of 25 Years of Literature on Soft Skills in Agile Development Teams

• 作者：Israely Lima; Lucas Moura Lourenço; Márcio Ribeiro; Ivan Machado; Carla Ilane Bezerra
• arXiv: https://arxiv.org/abs/2604.28101v1

Abstract

软件开发是一个社会技术交织且以人为中心的过程，人员因素直接影响质量、生产率与创新能力。由此，计算机领域的职业发展已超越纯技术能力，要求从业者具备应对持续变更与协作需求的能力。非技术能力（软技能）在其中尤为突出，涵盖社会、情绪与沟通维度，是团队效能和软件项目成功的关键。尽管其重要性已被承认，过去 25 年关于敏捷背景下最关键软技能的系统映射仍不足，限制了人际与技术要素在软件开发中的整合。本文对 2000 年1月至 2025 年5月间 97 项研究进行系统映射，识别了沟通、适应力、团队协作与领导力等反复出现的能力，并关联不同敏捷角色需求，强调 Scrum 等敏捷实践的主导性。研究还指出文献缺口，如缺乏针对角色特定软技能的研究。结果可支撑研究者、教育者和实践者设计课程、培训策略与组织实践，以提升协作和创新型人才培养，并强化社会与技术维度的融合。

I hope we don’t do to trust what advertising has done to love

• 作者：Jade Alglave
• arXiv: https://arxiv.org/abs/2604.28113v1

Abstract

广告常借助“爱（love）”这个词来促销，例如“你爱上你的烤箱吗”，并借此淡化消费决策的理性判断。本文提醒，在谈及 AI 尤其是具备代理能力的系统时，不应像消费广告那样无条件地“信任”。作者提出需要可操作且可衡量的信任定义，主张在 AI 语境下重启可讨论的“信任支柱”框架，并尝试在计算领域乃至更广泛社会语境中形成共同对话。作者进一步提出，代理系统的显式交互接口也可能成为“信任向量”，即从表面上可能受误导的信任叙事中转化为更可验证、可约束的信任机制。

Feature-Centric Methodology for Analyzing Cross-Chain NFT Migration Compatibility

• 作者：Mohd Sameen Chishti; Damilare Peter Oyinloye; Jingyue Li
• arXiv: https://arxiv.org/abs/2604.27805v1

Abstract

跨链 NFT 迁移旨在将数字资产及其功能与保障一并转移到不同区块链，但平台间架构差异会导致功能无法按预期运行。协议层机制虽能协调数据传输，却难以解决状态组织、事务执行与所有权表示等根本差异引起的兼容性问题。关键难点在于迁移前预判哪些 NFT 功能可保留、哪些需重构、哪些根本不兼容。为此，作者基于标准区块链栈提出四层 NFT 架构：密码学层、状态管理层、交易处理层与所有权层，并给出明确的自上而下依赖关系。在该模型下将 NFT 视为一组特征，定义跨链迁移成功即特征得以保留。论文提出四阶段迁移分析方法：源特征规格化、原语级依赖映射、目标链能力画像、兼容性评估。评估输出将每项功能标注为“原生保留”“部分不匹配”或“完全不匹配”。以以太坊到 Solana 的概念验证为例，该方法识别出若干阻碍无缝迁移的不兼容问题。

Test Before You Deploy: Governing Updates in the LLM Supply Chain

• 作者：Mohd Sameen Chishti; Damilare Peter Oyinloye; Jingyye Li
• arXiv: https://arxiv.org/abs/2604.27789v1

Abstract

LLM 逐渐成为软件系统的核心依赖，但托管服务可在无显式版本号变化的情况下持续更新。此类“隐式更新”会引发行为漂移，导致功能、格式、安全约束和应用特定需求方面的回归。已有方法多偏向回归测试或版本管理，缺少在部署方层面治理模型演化兼容性的机制。本文提出基于三部分的部署端框架：生产合约（定义模型应有行为边界）、按风险面向组织测试套件、以及发布闸门（当安全与性能标准未达标则阻止更新）。跨多个 LLM 版本的探索验证显示，面向特定风险域的测试可发现总体指标遗漏的回归。作者还讨论了构建有效测试套件、在非确定性系统中设置可靠阈值、以及在提供者透明度受限条件下检测和解释模型漂移等未决问题。该工作将 LLM 更新管理界定为软件供应链治理问题，并给出可落地研究路线。

The Grand Software Supply Chain of AI Systems

• 作者：Carmine Cesarano; Martin Monperrus
• arXiv: https://arxiv.org/abs/2604.27781v1

Abstract

AI 系统建立在完整性较低的软件基础之上，使其在数据采集、模型训练、推理和横跨层面的支撑子系统各阶段均暴露风险。本文将 AI 软件供应链作为一等公民进行分析，按四个架构层面拆解：数据采集、模型训练、模型推理、以及跨层基底子系统。作者指出现有传统供应链机制未覆盖四类结构性缺口：可验证性、版本管理、可观测性与可追溯性。当前 AI 系统在这四方面均不足：存在未声明的行为耦合，无法回退到已知可工作组装态；漂移通常静默发生；行为变化不易暴露；系统谱系难以估计。为量化规模，作者对 48 个生产级开源项目的参考栈进行了分析：这些项目声明了 4,664 个直接依赖，解析出 11,508 个传递依赖，总代码量约 3.92 亿行。

A Longitudinal Analysis of Good First Issue Practices and Newcomer Pull Requests in Popular OSS Projects

• 作者：Hirotatsu Hoshikawa; Hidetake Tanaka; Kazumasa Shimari; Raula Gaikovina Kula; Kenichi Matsumoto
• arXiv: https://arxiv.org/abs/2604.27532v1

Abstract

开源软件项目要持续发展，必须有效接纳新人。为此，许多项目使用“good first issue”标签标识适合初学者的任务。本文分析了 37 个流行 GitHub 仓库（其中 30 个使用 GFI 标签）在 2021 年7月至 2025 年6月间的 406,826 个 issue 和 1,117 个来自新人的 GFI 拉取请求。结果显示，前 3 年 GFI 的占比保持稳定，但自 2024 年1月起显著下降，差异与仓库年龄或语言无明显解释。尽管这种供给下降，约 27% 的新手仍持续关注并参与 GFI。研究进一步发现，新手 GFI PR 的合并率从 61.9% 降至 42.2%。初始 PR 的描述长度与代码量与最终合并结果无显著相关，说明成功不由提交的量化特征单独决定。整体而言，结果揭示了新手兴趣稳定但可接入机会与成功率下降之间的差距，提示维护者需持续投入标签维护与评审支持。

One Size Fits All? An Empirical Comparison of ADR Templates regarding Comprehension, Usability, and Ease of Adoption

• 作者：Fernando Nogueira; Nabson Silva; Tayana Conte
• arXiv: https://arxiv.org/abs/2604.27333v1

Abstract

文档化架构决策（ADD）是软件生命周期中的关键环节，关系到后续维护、开发者入职和知识留存。尽管已有多种 ADR 模板，但缺少基于实证的横向比较。本文比较了 Tyree/Akerman、Nygard、arc42、Y-statements 与 MADR 五种模板在可理解性、可用性与采纳难度方面的表现。研究采用两阶段方法：先由两位架构专家按 DESMET FA 对五类模板进行初筛，再将前两名（Nygard 与 MADR）用于本科生受控实验。专家筛选表明 Nygard 与 MADR 表现最佳；实验中 Nygard 的总体得分高于 MADR。定性反馈进一步指出，Nygard 更偏向简洁客观的文档，而 MADR 更有利于记录结构细节和特定架构需求。研究给出基于证据的模板采用策略，为实践与研究者在不同项目约束下进行 ADR 选择提供决策依据，以降低文档开销并提升架构知识保留。

研究方向：系统软件与平台工程

A Monadic Implementation of Functional Logic Programs

• 作者：Michael Hanus; Kai-Oliver Prott; Finn Teegen
• arXiv: https://arxiv.org/abs/2604.27863v1

Abstract

函数式逻辑语言结合声明式特性，抽象掉细粒度的运行时细节，使程序员可更专注于应用逻辑；其需求驱动的评估策略与逻辑编程的非确定性结合后，解或值可在存在时自动求得。该特性降低了程序员对执行策略影响的关注，但给语言实现带来挑战。非确定性需求驱动策略可能重复未评估的表达式选择，放大计算代价。既有实现通过在待评估表达式上增加非确定性选择记忆化来缓解，但此前主要在命令式目标语言中完成，尚未清楚能否在纯函数式环境（如 Haskell）中实现。本文通过将函数式逻辑程序转为单子表示解决此问题。该实现不仅支持非确定性分支中的记忆化，还整合函数式逻辑语言的高级特性（如函数式模式与封装搜索），并在纯函数式计算中结合静态与动态优化，获得了优于现有 Curry 编译器的有前景性能。

Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes

• 作者：Tianyuan Wu; Chaokun Chang; Lunxi Cao; Wei Gao; Wei Wang
• arXiv: https://arxiv.org/abs/2604.28138v1

Abstract

自主代理通常在沙箱容器或 microVM 中运行，状态包含文件系统、进程及运行时工件。此类状态的检查点/恢复能力对容错、按需执行、RL 分支搜索和安全回滚至关重要。现有方案通常处于两个极端：应用层恢复能保留聊天记录却漏掉 OS 级影响；逐回合完整快照虽正确但在高并发共置下开销巨大。问题根源在于“代理-OS 语义鸿沟”：代理框架能看到工具调用，无法感知 OS 效果；OS 侧看到状态变化，却缺乏回合级上下文判断恢复相关性。实际情况是 75% 以上回合无恢复相关状态变更，导致大量快照冗余。Crab（Checkpoint-and-Restore for Agent SandBoxes）提供透明的主机侧运行时，不改动代理或 C/R 后端，通过 eBPF 检查器评估每个回合的 OS 可见影响以决定检查点粒度；协调器按回合边界对齐快照，并与 LLM 等待时间重叠 C/R 操作；主机级调度引擎则跨共置沙箱规划快照流量。实测在 shell 密集和代码修复负载下，Crab 将恢复正确率从 8% 提升到 100%，同时将快照流量降低高达 87%，并将性能损失控制在 fault-free 执行的 1.9% 以内。

Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale

• 作者：Jin Xin Ng; Ori Livneh; Richard O’Grady; Josh Don; Peng Ding; Samuel Grossman; Luis Otero; Chris Kennelly; David Lo; Carlos Villavieja
• arXiv: https://arxiv.org/abs/2604.27915v1

Abstract

现代多核系统常以 Linux CFS 等调度器在共享 CPU 下运行多个工作负载，追求负载均衡会将任务分散到更多核心，削弱 LLC、分支预测器和预取器上的局部性，使不同工作负载间干扰加剧，尤其在 chiplet 架构中还会跨 LLC 域扩散。严格分区可恢复局部性，但当负载未充分使用保留核心时会浪费容量。本文提出 Affinity Tailor，一种用户态辅助的内核调度系统：核心洞察是内核可通过“亲和性提示”而非硬分区，在共享场景下保留局部性。系统在线估计每个工作负载的 CPU 需求，分配与需求大小匹配、尽量不交叠且跨 LLC 边界尽量少的首选 CPU 集合。内核将该集合作为亲和性提示，在必要时允许跳出以维持利用率。谷歌部署结果表明，该方法在 chiplet 平台上每核吞吐平均提升 12%，在非 chiplet 平台提升 3%，且内存占用更低带来每 GB 吞吐提升 3%–7%。结果表明未来调度器应将空间局部性作为第一优先目标，即使牺牲部分工作保守性。

treVM: Tiny Rust Embedded Virtual Machines with WASM on Variable Resource-Constrained Hardware

• 作者：Antoine Lavandier; Bastien Buil; Chrystel Gaber; Emmanuel Baccelli
• arXiv: https://arxiv.org/abs/2604.27570v1

Abstract

面向微控制器的嵌入式软件栈通常只提供 C/C++ 编程的基础 API、有限连通性和偶发固件更新机制，这与较重型硬件上常见的 API 体系和网络交互能力存在明显差距。本文旨在缩小这一差距，提出 treVM：在通用 Rust 嵌入式软件平台上实现的一种通用方案，用于托管高层次 WebAssembly 代码胶囊，并支持在大量 32 位微控制器上运行。treVM 不仅支持可高度定制的业务逻辑，还可在已部署设备上安全执行网络按需更新。该系统基于 Ariel OS RTOS 用 Rust 实现并开源。作者在常见开发板上验证其可行性，并在 Arm Cortex-M、RISC-V 与 Xtensa 等异构硬件上进行了广泛基准测试，结果显示 treVM 为低功耗联网设备提供了持续部署的可行框架。

目录

大模型驱动的软件工程与编程代理

软件质量、缺陷治理与社区协同

软件工程过程、治理与组织实践

系统软件与平台工程

研究方向：大模型驱动的软件工程与编程代理

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

Abstract

DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures

Abstract

A Pattern Language for Resilient Visual Agents

Abstract

From Mirage to Grounding: Towards Reliable Multimodal Circuit-to-Verilog Code Generation

Abstract

LLM-as-a-Judge for Human-AI Co-Creation: A Reliability-Aware Evaluation Framework for Coding

Abstract

PuzzleMark: Implicit Jigsaw Learning for Robust Code Dataset Watermarking in Neural Code Completion Models

Abstract

ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models

Abstract

REBENCH: A Procedural, Fair-by-Construction Benchmark for LLMs on Stripped-Binary Types and Names (Extended Version)

Abstract

Pragmos: A Process Agentic Modeling System

Abstract

To Diff or Not to Diff? Structure-Aware and Adaptive Output Formats for Efficient LLM-based Code Editing

Abstract

ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning

Abstract

GenAI in Software Engineering: The Role of Technology Acceptance Models

Abstract

研究方向：软件质量、缺陷治理与社区协同

Unsafe and Unused? A History of Utility Code in Mature Open Source Projects

Abstract

An Empirical Evaluation of Code Smell Detection in Angular Applications

Abstract

Requirements Debt in AI-Enabled Perception Systems Development: An Industrial RE4AI Perspective

Abstract

Multifaceted Hero Developers and Bug-Fixing Outcomes Across Severity

Abstract

How Code Representation Shapes False-Positive Dynamics in Cross-Language LLM Vulnerability Detection

Abstract

Understanding Bugs in Template Engine-Based Applications: Symptoms, Root Causes, and Fix Patterns

Abstract

Tail-aware N-version Machine Learning Models for Reliable API Recommendation

Abstract

研究方向：软件工程过程、治理与组织实践

Beyond Code, We Are People: A Systematic Mapping of 25 Years of Literature on Soft Skills in Agile Development Teams

Abstract

I hope we don’t do to trust what advertising has done to love

Abstract

Feature-Centric Methodology for Analyzing Cross-Chain NFT Migration Compatibility

Abstract

Test Before You Deploy: Governing Updates in the LLM Supply Chain

Abstract

The Grand Software Supply Chain of AI Systems

Abstract

A Longitudinal Analysis of Good First Issue Practices and Newcomer Pull Requests in Popular OSS Projects

Abstract

One Size Fits All? An Empirical Comparison of ADR Templates regarding Comprehension, Usability, and Ease of Adoption

Abstract

研究方向：系统软件与平台工程

A Monadic Implementation of Functional Logic Programs

Abstract

Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes

Abstract

Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale

Abstract

treVM: Tiny Rust Embedded Virtual Machines with WASM on Variable Resource-Constrained Hardware

Abstract