软件工程论文速递 | 26.05.22 日报: 34篇新论文速递

• Contractual Skills: A GovernSpec Design Framework for Enterprise AI Agents
• Why Are Agentic Pull Requests Merged or Rejected? An Empirical Study
• From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents
• Deterministic vs. Probabilistic Summarisation: An Empirical Trade-off Study in Design Pattern Centric Java Code
• HarnessAPI: A Skill-First Framework for Unified Streaming APIs and MCP Tools
• SynAE: A Framework for Measuring the Quality of Synthetic Data for Tool-Calling Agent Evaluations
• Sibyl-AutoResearch: Autonomous Research Needs Self-Evolving Trial-and-Error Harnesses, Not Paper Generators

程序修复、测试与质量保障

• FAME: Failure-Aware Mixture-of-Experts for Message-Level Log Anomaly Detection
• "Refactoring Runaway": Understanding and Mitigating Tangled Refactorings in Coding Agents for Issue Resolution
• SWE-Mutation: Can LLMs Generate Reliable Test Suites in Software Engineering?
• PITMuS: A Tool for Automated Bug Dataset Generation via Source-Level Mutant Reconstruction
• A Dataset of Reproducible Flaky-Test Failures
• Articulate but Wrong: Self-Review Failures in LLM-Based Code Modernization
• VeriScale: Adversarial Test-Suite Scaling for Verifiable Code Generation
• Astragalus: Automatic Configuration Repair for Production Networks

安全分析、模型监控与可信系统

• Automated Repair of TEE Partitioning Issues via DSL-Guided and LLM-Assisted Patching
• Finding Missing Input Validation in TEEs via LLM-Assisted Symbolic Execution
• RefusalBench: Why Refusal Rate Misranks Frontier LLMs on Biological Research Prompts
• The Neglected Baseline in Model Interpretation
• Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions
• Quality-Assured Fuzz Harness Generation via the Four Principles Framework
• FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction
• ASSEMBLAGE-DEEPHISTORY: A Cross-Build Binary Dataset with Temporal Coverage
• Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

编程语言、形式方法与系统基础设施

• An Architecture for Decentralised Deployment and Operation of Blockchain Applications
• Contract Based Verification of Non-functional Requirements for Embedded Automotive C Code
• QuCtrl-BELL: A Compiler-Driven Sub-Microsecond Feedback Control Stack for Scalable Trapped-Ion Quantum Experiments
• The Finite Length Property of the Rado Graph and Friends
• SENTIL: A Runtime Verification Tool for Probabilistic Temporal Logic
• DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback

软件工程实践、需求与领域应用

• At What Cost? Software Developers' Well-Being in the Age of GenAI
• The 2nd Workshop on Agile Practice & Research: A Summary and Call For Research
• Requirements Perception Gap across Stakeholders: A Comparative Survey of Aged Care Digital Health Software
• Innovations in Cardless Artificial Intelligence Banking: A Comprehensive Framework for Cyber Secure and Fraud Mitigation using Machine Learning Algorithms

代码生成、智能代理与开发工具

Contractual Skills: A GovernSpec Design Framework for Enterprise AI Agents

• 作者：Ting Liu
• arXiv URL：https://arxiv.org/abs/2605.22634

Abstract

技能正越来越多地被用于封装智能体指令、工作流、脚本和参考资料。然而在企业场景中，技能往往需要表达的不只是任务指导：它们还必须让目标、输入边界、权限、证据要求、输出契约、质量标准、验证步骤、人工审批点以及交接规则都变得可检查。本文提出“契约式技能”，这是一种受 GovernSpec 启发的设计框架，用于将 SKILL.md 文件组织为可读的任务契约，同时保留轻量级技能发现与渐进式加载能力。该框架澄清了契约式技能、GovernSpec YAML 契约、Model Context Protocol 暴露面、工具适配器、运行时护栏、追踪与评估系统之间的边界。作者通过两个离线实验评估该框架。其一是文本生成研究，覆盖三个企业技能、十五个合成任务、四种指令条件和八个生成模型，共产生 960 个输出与 1680 条交叉评审评分记录。契约式技能在所有测试模型上都优于无技能和最小技能基线。相较信息丰富但纯文本展开的技能，收益较小且结果不一，这表明契约字段主要改善的是可检查性与可维护性，而非原始生成质量。其二是工具调用挑战，覆盖八个模型和 192 条模拟工具调用记录。技能通常能够减少高风险工具尝试，但模型差异依然存在，运行时工具护栏仍然必不可少。结果表明，契约式技能更适合作为一种治理层，用来显式表达任务意图、边界和验收标准，而不是独立的安全机制。

Why Are Agentic Pull Requests Merged or Rejected? An Empirical Study

• 作者：Sien Reeve O. Peralta, Fumika Hoshi, Hironori Washizaki, Naoyasu Ubayashi, Inase Kondo, Yoshiki Higo, Hiroki Mukai, Norihiro Yoshida, Kazuki Kusama, Hidetake Tanaka, Youmei Fan
• arXiv URL：https://arxiv.org/abs/2605.22534

Abstract

AI 编码智能体正越来越多地向开源仓库提交拉取请求（Agentic-PR），但其表现通常仅通过合并或拒绝这类结果标签来衡量。作者假设，如果不结合评审交互过程，仅凭这些结果标签并不能可靠反映智能体能力。为验证这一点，本文对 11048 个已关闭的 Agentic Pull Request 进行了面向决策的分析，将其细化为 9799 个经过人工评审的 PR，并人工检查了 717 个具有代表性的案例，以从交互工件中恢复决策理由。研究发现，被拒绝的结果明显夸大了智能体错误：只有 35.7% 的拒绝 PR 反映了明确的智能体失败，31.2% 是由工作流约束驱动，33.1% 则缺乏可观察的决策理由。在已合并 PR 中，15.4% 需要评审者通过反馈或直接提交显式介入，另有 5.5% 看不到任何可见交互痕迹。作者还观察到不同智能体之间存在系统性差异：Copilot 和 Devin 更常嵌入到由评审者介导的工作流中，而 Codex 和 Cursor 的 PR 通常在最少交互下直接合并。这些结果否定了“仅凭 PR 结果即可刻画智能体表现”的假设，说明需要基于评审行为、具备交互感知能力的评估方法。

From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents

• 作者：Murong Ma, Tianyu Chen, Yun Lin, Shuai Lu, Qinglin Zhu, Yeyun Gong, Zhiyong Huang, Peng Cheng, Yan Lu, Jin Song Dong
• arXiv URL：https://arxiv.org/abs/2605.21996

Abstract

在开放式软件工程智能体中，通过对长教师轨迹进行监督微调（SFT）来灌输调查与推理能力，仍然是主流做法。由于每一条被保留的响应都会成为模仿目标，学生模型不仅继承最终结果，也会继承中间缺陷，包括无根据的跳跃和冗余循环。高质量训练数据必须同时满足有效性（每一步都基于事实并缩小智能体到正确修复之间的认知差距）和效率（每一步都承载信息，而不是冗余或循环）。现有做法只依赖二元终局验证器来过滤或重标教师 rollout，既不能直接针对这两个维度，也无法为教师失败的实例提供监督。大多数真实问题都包含开发者编写的参考补丁 p*，其中暴露了正确修复所依赖的文件路径、运行时行为和编码约定，但标准流水线通常将其丢弃。本文提出 Patches-to-Trajectories（P2T），在数据整理阶段将 p* 作为特权信息使用，并把轨迹构造表述为针对逐步有效性和轨迹长度的双目标优化问题。其逆向阶段会将 p* 蒸馏为一个潜在过程图 G*，其中包含上下文事实与解决里程碑；正向阶段则从被遮蔽的教师延续中进行轨迹筛选，在防泄漏的 groundedness 检查约束下，根据相对于 G* 的逐步进展打分，并保留最短的有效片段。仅使用 1.8k 条经过整理的 SWE-Gym 实例，P2T 就在有效性和效率上优于基于结果过滤的 SFT 及其工具错误掩蔽变体。在 SWE-bench Verified 上，它将 Pass@1 最多提升 10.8 个点，同时把单实例推理成本降低约 15%，并在 SWE-bench Lite 上保持一致收益。控制变量消融和定性分析进一步将轨迹质量与数据规模因素区分开来。

Deterministic vs. Probabilistic Summarisation: An Empirical Trade-off Study in Design Pattern Centric Java Code

• 作者：Najam Nazar, Christoph Treude
• arXiv URL：https://arxiv.org/abs/2605.21943

Abstract

背景：自动化代码摘要有助于程序理解和文档生成，但确定性（基于启发式）与概率式（基于 LLM）流水线各自的相对优势与局限性仍不清楚。目标：本文针对面向意图的设计模式代码摘要，对这两种范式进行受控实证比较。方法：作者以设计模式中心的 Java 代码作为结构化试验平台，选取来自三个开源仓库、覆盖九种模式的 150 个文件，对基于规则的自然语言生成流水线、基于 Software Word Usage Model（SWUM）的方法，以及基于 Mixtral LLM 的概率式流水线进行比较。摘要通过 BERTScore 和余弦相似度与人工参考进行对照，并辅以由 Llama 3 按五个维度给出的评分式判断：准确性、简洁性、充分性、代码上下文感知和设计模式忠实度。统计分析包括 Wilcoxon 符号秩检验（含效应量）、Friedman 检验及事后校正，以及用于评估评分一致性的 Spearman 相关敏感性分析。结果：概率式摘要在语义对齐和上下文覆盖上更强，而确定性方法则输出更简洁且完全可复现。提示敏感性与多轮运行分析表明，LLM 输出存在变异，但相对趋势稳定。结论：一个清晰的权衡浮现出来：概率式方法偏向更深的语义与更准确的上下文，而确定性流水线在简洁性与可复现性上更有优势。研究结果为代码摘要技术的选择提供了实践指引。

HarnessAPI: A Skill-First Framework for Unified Streaming APIs and MCP Tools

• 作者：Edwin Jose
• arXiv URL：https://arxiv.org/abs/2605.22733

Abstract

如今，任何作为 LLM 工具部署的 Python 函数往往都必须同时以两种形式存在：一种是面向人工客户端和 CI 流水线的 HTTP 端点，另一种是面向 Claude、Cursor 等智能体运行时的 MCP 工具注册。这两种表示共享业务逻辑，却在路由、校验、序列化、流式传输和模式维护等外围机制上分叉，并随着底层代码演化而逐渐漂移。本文提出 HarnessAPI，这是一个 Python 框架，通过将一个带类型的 skill 文件夹视为唯一事实来源，来消除这种重复。只需一个 handler.py 加上 Pydantic schema，框架就可以自动派生出支持 Server-Sent Events 的流式 HTTP 端点、交互式 OpenAPI/Swagger UI，以及零配置 MCP 工具，并由同一进程统一提供服务。双模式内容协商使同一个处理器无需改动即可同时服务 SSE 流式客户端和 JSON 返回式客户端。一个动态代码生成机制确保 Pydantic 类型注解能够正确传递到 FastMCP 的检查层，从而解决了基于闭包的朴素注册方式无法处理的技术限制。作者在六个代表性技能上通过 cloc 评估发现，相比手工维护的双栈实现（FastAPI 服务器 + FastMCP 服务器），HarnessAPI 可将框架相关样板代码减少 74%。HarnessAPI 继承自 FastAPI，因此保留了其完整的中间件、依赖注入和部署生态。

SynAE: A Framework for Measuring the Quality of Synthetic Data for Tool-Calling Agent Evaluations

• 作者：Shuaiqi Wang, Aadyaa Maddi, Zinan Lin, Giulia Fanti
• arXiv URL：https://arxiv.org/abs/2605.22564

Abstract

如今，工具调用型智能体通常在静态执行轨迹数据集上进行评估或测试，这些数据集包含输入命令、智能体响应以及对应的工具调用。然而，内部生产数据集往往不足以或不适合用于测试，例如其中可能包含敏感或专有数据，或在部署前难以提供足够全面的覆盖。在这类场景中，实践者越来越多地用合成数据替代或补充真实数据用于评估。关键挑战在于，如何量化这些合成数据集与真实数据之间的关系。本文提出 SynAE，这是一套评估框架，用于衡量面向多轮工具调用智能体的合成基准，在多大程度上复现并扩展了真实数据轨迹的特征。SynAE 从四类指标评估合成数据的有效性、保真度和多样性：(i) 任务指令与中间响应；(ii) 工具调用；(iii) 最终输出；(iv) 下游评估。作者利用近期的智能体基准来评估 SynAE，并通过现实化和受控的生成方案测试常见的合成数据失效模式。结果表明，SynAE 能检测数据有效性、保真度和多样性的细粒度变化，同时也显示没有任何单一指标足以完整刻画合成数据质量，因此需要一种多轴度的合成数据评估方式来支持智能体测试。

Sibyl-AutoResearch: Autonomous Research Needs Self-Evolving Trial-and-Error Harnesses, Not Paper Generators

• 作者：Chengcheng Wang, Qinhua Xie, Wei He, Jianyuan Guo, Shiqi Wang, Chang Xu
• arXiv URL：https://arxiv.org/abs/2605.22343

Abstract

自主研究系统正越来越多地让科学工作流变得可执行：智能体能够提出想法、运行代码、检查结果并起草论文。但仅仅让工作流可执行，并不会自动产生研究判断。本文分析了当前系统在何处丢失试验经验：薄弱证据会被直接写成文字，试探性信号被放大为宽泛结论，记忆仍停留在文本层面，而重复出现的过程失败也不会改变后续行为。作者提出 Sibyl-AutoResearch，这是一种围绕“科学试错支架”（Scientific Trial-and-Error Harnesses）构建的自演化 AutoResearch 框架。支架允许智能体执行有界试验，保留正负结果，并将这些经验路由到后续规划、验证、论断范围控制、调度、批判性审阅、写作和支架修复中。作者通过两个可审计的转换单元来形式化这一机制：一是试验到行为的转换，用于把试验信号连接到后续研究动作；二是试验到支架行为的转换，用于把重复发生的过程失败连接到系统更新。作者在 SIBYL 中实现了这一框架，这是一个基于文件的自主研究系统，显式暴露出状态、角色、记忆、门控和工件轨迹，以便检查这些转换路径。回顾性审计识别出八个高置信度转换事件，其中中位延迟为一次迭代，最大延迟为三次迭代。一个恢复失败登记册进一步显示，重复结果、过期数字和缺乏支撑的统计等五类自然发生的失败，如何被阻断、降级或延后修复。这些轨迹并不构成与其他系统的性能对比结论，但表明所提出的转换单元可以从真实的自主研究工作空间中恢复出来。

程序修复、测试与质量保障

FAME: Failure-Aware Mixture-of-Experts for Message-Level Log Anomaly Detection

• 作者：Huanchi Wang, Zihang Huang, Yifang Tian, Kristina Dzeparoska, Hans-Arno Jacobsen, Alberto Leon-Garcia
• arXiv URL：https://arxiv.org/abs/2605.22779

Abstract

生产系统每天会生成数百万条日志，但大多数异常检测器工作在 session 或 window 级别，标记的是一组日志行，而不是找出真正负责异常的那一条具体消息。这种粗粒度会迫使运维人员在每次告警时检查大量例行日志。消息级检测提供了更细粒度的能力，但仍然很困难：同一个事件模板既可能对应正常消息，也可能对应异常消息；故障来自异构子系统；而在大规模场景下对单行日志打标签并不现实。虽然大语言模型可以理解日志语义，但若对每一行都调用 LLM，持续监控的成本会过高。本文提出 FAME（Failure-Aware Mixture-of-Experts），一种标签高效的消息级专家混合框架，只在离线阶段调用一次 LLM。作者对每个模板最多标注 K 条日志，提取二元正常/异常指示器和代表性示例；随后由 LLM 提出模板到故障域的划分，并在训练前通过一个认证步骤对该划分进行验证。FAME 训练一个轻量级路由器和若干故障域专家，在本地部署后输出异常预测和故障域标签。在 BGL 数据集上，FAME 在 K=100 时取得 F1 = 98.16，将标注工作量降低了 76 倍，并能够检测到 86.3% 来自未见 EventID 的异常；在 Thunderbird 上，FAME 达到 F1 = 99.95 且召回率为 100%。

"Refactoring Runaway": Understanding and Mitigating Tangled Refactorings in Coding Agents for Issue Resolution

• 作者：Zhao Tian, Zifan Zhang, Tao Xiao, Dong Wang, Masanari Kondo, Junjie Chen, Yasutaka Kamei
• arXiv URL：https://arxiv.org/abs/2605.22526

Abstract

近年来，编码智能体在软件问题解决方面取得了显著进展。在真实世界中，问题通常表现为缺陷修复或功能请求，而人类开发者在解决过程中会自然地伴随重构，从而产生“纠缠式重构”。由于 LLM 是在大规模开源仓库上训练的，编码智能体可能会继承这种行为。本文在 Multi-SWE-bench 上开展实证研究，分析由三个智能体框架和 12 个 LLM 生成的 3691 个有效补丁。结果发现，与人类开发者相比，编码智能体引入纠缠式重构的频率更低（21.43% 对 36.72%），强度也更小（0.66 对 1.75），但它们展现出更广泛的重构类型多样性。逻辑回归分析进一步表明，纠缠式重构与可编译性下降显著相关，但与功能正确性之间没有显著关联。基于这些发现，作者提出一种面向重构感知的细化方法，用于评估纠缠式重构的必要性与安全性，并选择性地移除或修复有问题的操作。该方法将可编译性从 19.34% 提升到 38.33%，并额外解决了 2.79% 先前未能解决的问题。总体来看，这项工作迈出了理解智能体式问题解决中纠缠式重构实践的第一步，并为后续研究打开了方向。

SWE-Mutation: Can LLMs Generate Reliable Test Suites in Software Engineering?

• 作者：Yuxuan Sun, Yuze Zhao, Yufeng Wang, Yao Du, Zhiyuan Ma, Jinbo Wang, Mengdi Zhang, Kai Zhang, Zhenya Huang
• arXiv URL：https://arxiv.org/abs/2605.22175

Abstract

评估软件工程能力已经成为现代大语言模型的重要组成部分，但阻碍进一步扩展的关键瓶颈并不在于高质量解答稀缺，而在于高质量测试套件缺乏。测试套件既是合成程序修复轨迹的基础，也是强化学习中提供精确信号的关键。然而，由于标注成本高且难度大，高质量测试套件长期难以获得，而由 LLM 自动生成的测试往往流于表面，缺乏足够的判别力。作为构建高质量测试套件的第一步，本文提出 SWE-Mutation，一个用于评估 LLM 生成测试套件的基准。该基准通过系统性构造“试图欺骗测试套件并通过验证”的变异解，来表征测试套件的质量。作者进一步提出一种具备智能体特征、与语言无关的框架，用于自动生成复杂变异体。该基准包含由 800 个原始实例派生出的 2636 个变异版本，并包含覆盖九种编程语言的多语言子集。对七个 LLM 的实验表明，即使是 DeepSeek-V3.1，其验证率也只有 10.20%，检测率只有 36.15%，凸显了当前模型在生成可靠测试套件方面的不足。此外，作者提出的智能体式变异策略提高了变异体的真实性，使平均检测率相较传统方法从 71.04% 降至 39.81%。这些结果暴露出当前 LLM 在生成可靠且具区分力测试套件方面仍存在持续缺陷。

PITMuS: A Tool for Automated Bug Dataset Generation via Source-Level Mutant Reconstruction

• 作者：Tasfia Tasnim, Soneya Binta Hossain
• arXiv URL：https://arxiv.org/abs/2605.21930

Abstract

基于 LLM 的软件工程越来越依赖可执行、上下文丰富的缺陷工件：成对的正确/缺陷代码、被测方法（MUT）、文档以及元数据。这些工件支撑自动缺陷定位与修复技术、测试与测试预言生成方法，以及文档驱动的自动化训练和评估。尽管 Defects4J 之类的人工整理基准仍然有价值，但它们是静态的，并且随着代码模型在大规模公开语料上训练，越来越容易受到污染。一个互补策略是选择真实系统版本并在源码层面注入可控缺陷，从而生成新的、对时间截断敏感的数据集。变异测试天然适合作为这一策略的基础：它向程序应用预定义变异算子，并记录现有测试套件是否能检测到每个被注入的变化。PIT 是 Java 领域的先进变异测试工具，在字节码级执行变异，因此速度快且实用，但其主要通过 XML 报告变异体，使得这些变异体难以被检查、复现或复用于结构化的源码级数据记录。为此，本文提出 PITMuS，它将 PIT XML 元数据与已编译 Java class 文件中的调试信息结合起来，定位并重建每个变异体在源码层面对应的编辑。随后，PITMuS 会自动产生结构化数据集，其中包含源码级的缺陷/修复代码对、文档上下文和下游训练评估所需的元数据。尽管作者在八个开源 Java 系统上对其进行了评估，但 PITMuS 可应用于任何能够集成 PIT 的 Java 系统。

A Dataset of Reproducible Flaky-Test Failures

• 作者：Suzzana Rafi, Mahbub-Ul-Hoque Sumon, Md Erfan, Maruf Morshed Khan, August Shi, Wing Lam
• arXiv URL：https://arxiv.org/abs/2605.21677

Abstract

Flaky test 会在同一版本的代码上表现出非确定性的通过与失败。尽管已有许多技术被提出用于检测、调试和修复 flaky test，但由于其固有的非确定性，复现其失败仍然是一大挑战。为了支持研究，已经存在多个 flaky test 数据集，但这些数据集通常由彼此割裂的测试集合组成，每个数据集只提供某一类独特信息，例如不同类别的 flaky test、它们的失败日志，或开发者报告的 flaky test 与自动工具发现的 flaky test。本文旨在创建一个可复现的 flaky test 数据集，其样本来自开发者 issue 报告和一个流行的 flaky test 数据集。与既有数据集相比，该数据集首次提供了：(1) 可编译 flaky test 的可复现环境；(2) 用于复现失败的脚本；(3) 用于自动应用 flaky test 修复并确认测试不再 flaky 的脚本；(4) flaky test 通过与失败时的执行日志。作者提出 ReproFlake，它包含 1115 个可复现的 flaky test，覆盖四类 flaky test。作者还设计了贡献指南，帮助他人为这一可复现数据集增补内容，并展示如何利用该数据集理解 flaky test 失败复现中的挑战、不同类别 flaky test 的特征，以及研究者在利用该数据集收集额外信息（如代码覆盖率）时可能遇到的困难。研究发现，错误信息有助于识别 flaky test 类别并指导修复，未解决的编译失败揭示了构建遗留项目的难点，而了解典型修复位置则可帮助研究者优先安排修复工作。

Articulate but Wrong: Self-Review Failures in LLM-Based Code Modernization

• 作者：Gokul Chandra Purnachandra Reddy, Aditya Lolla, Harsha Sanku
• arXiv URL：https://arxiv.org/abs/2605.21537

Abstract

大语言模型智能体正越来越多地被用于将遗留代码迁移到现代技术栈。本文提出一个看似简单但实际关键的问题：当 LLM 对遗留代码进行现代化改造时，是否可以依赖同一个模型来识别其输出是否悄然改变了可观察行为？作者在一个平衡的 60 段遗留 Python 2 代码语料上，对来自 7 个模型家族的 11 个生产级 LLM 执行了 1980 次真实现代化调用，并利用严格类型的行为预言机评估每个输出，随后再要求每个模型判断其自身输出是否保持了行为一致。研究报告了四点结论：(1) 语义保持漂移广泛存在，并且与精心控制的基线存在明显差异：在语义陷阱片段上，39.7% 的尝试出现漂移，而在无需实际现代化的良性对照片段上仅有 7.0%，差值达 32.7 个百分点；(2) 漂移集中在若干跨模型普遍失败的特定片段上：模型两两之间对“哪些片段困难”的判断高度一致，且一小组数值语义相关片段几乎会让所有模型和所有提示措辞失效；(3) 由生成模型执行的自我审查并不是可靠安全网：在全部语义漂移案例中，有 31.7% 会被产生该输出的同一模型默许，而且模型间的自我漏检率呈强双峰分布，从 0% 到 100% 不等，一些模型甚至能明确说出 Py2/Py3 之间真正导致行为变化的语义差异，却仍宣称行为保持不变；(4) 漂移率并不随着模型能力和价格单调变化，说明这一失败更多是任务结构性问题，而不是简单由模型规模驱动。作者公开了全部代码、提示、60 段语料、行为预言机、输出提取器和原始模型输出。

VeriScale: Adversarial Test-Suite Scaling for Verifiable Code Generation

• 作者：Yifan Bai, Xiaoyang Liu, Zihao Mou, Guihong Wang, Jian Yu, Shuhan Xie, Yantao Li, Yangyu Zhang, Jingwei Liang, Tao Luo
• arXiv URL：https://arxiv.org/abs/2605.22368

Abstract

随着大语言模型越来越多地用于软件工程，构建高质量基准对于评估其生成代码的不仅是功能正确性，还有形式上可验证性，变得至关重要。然而，现有基准受到正反测试用例数量和质量的限制，导致模型在生成规格和实现方面的能力被高估。为解决这一问题，本文提出 VeriScale，这是一个由对抗式实现驱动的新框架。它包含两个阶段：首先进行测试套件扩展，以构造多样且富有挑战性的测试用例；随后进行测试套件压缩，从中蒸馏出小而具有区分力的测试集。尽管 VeriScale 是通用框架，作者将其具体实例化在 Verina 上，构造出 VerinaPlus 和轻量版 VerinaLite：前者将原始测试套件扩展了 83 倍以上，后者则扩展了 14 倍。作者在八个当前最先进的 LLM 上开展实验，结果显示，VerinaPlus 揭示了原始基准所掩盖的大量模型弱点，SpecGen 和 CodeGen 两类任务的得分都出现明显下滑；而 VerinaLite 则在仅需一小部分评估成本的前提下保留了这种区分能力。增强后的基准和源代码均已公开。

Astragalus: Automatic Configuration Repair for Production Networks

• 作者：Zhenrong Gu, Peng Zhang, Xing Feng, Xu Liu
• arXiv URL：https://arxiv.org/abs/2605.22092

Abstract

网络配置很容易出错，而这些错误可能导致灾难性的服务中断，因此运维人员非常希望拥有自动配置修复（ACR）工具。现有 ACR 工具通常采用语义驱动的方法：把网络语义建模为一组 SMT 约束，然后求解错误位置或修复方案。由于网络语义复杂，这些约束的构造和求解往往代价高昂，导致此类工具既不通用，也缺乏可扩展性。受自动程序修复（APR）的启发，本文探索了另一条路径，即语法驱动的方法：不显式建模程序语义，而是尝试通过“嫁接”同一仓库中已有的代码来修复程序错误。沿着这一思路，作者提出 Astragalus，一种用于自动配置修复的语法驱动方法。它通过多轮“定位-修复-验证”流水线来搜索修复方案，并在生产网络配置上表现出很高有效性。具体来说，在多个规模的合成网络上，Astragalus 能修复每一个注入了 15 类错误的事故；在真实网络上，则能修复 97.5% 的此类事故，平均耗时 7.36 秒。对于一个拥有 O(1,000) 到 O(10,000) 台设备的真实生产网络，它还在 6 分钟以内为 4 个近期网络事故或不期望的配置变更提供了有效修复选项。

安全分析、模型监控与可信系统

Automated Repair of TEE Partitioning Issues via DSL-Guided and LLM-Assisted Patching

• 作者：Chengyan Ma, Jieke Shi, Ruidong Han, Ye Liu, Feng Li, Yuqing Niu, David Lo
• arXiv URL：https://arxiv.org/abs/2605.22087

Abstract

可信执行环境（TEE）通过基于硬件的隔离来保护敏感数据与计算，使其免受可能已被攻破的操作系统影响。然而，TEE 应用不可避免地需要通过 SDK 接口与不受信任的操作系统交互，若分区不当，就可能引入严重漏洞，例如数据泄露和代码注入。虽然已有工作提出了静态分析工具来检测此类问题，但自动修复仍然几乎未被探索。这一问题尤其困难，因为存在三个 TEE 特有因素：缺乏标准化的安全开发指南、难以从底层 C 代码中提取语义信息，以及缺少成熟的测试与验证方法。本文提出 TEERepair，这是一种自动修复 TEE 应用中错误分区问题的框架。为应对上述挑战，作者引入了一种领域专用语言（DSL）来编码修复规则，用以表达和捕获常见的 TEE 安全模式，并将其实例化为带占位符的补丁模板，以适配具体上下文变量。随后，作者利用大语言模型推理代码语义并合成与上下文相关的补丁，同时进一步生成测试客户端以验证修复结果。作者在 TEE Partitioning Errors Benchmark（PartitioningE-Bench）上评估 TEERepair，结果显示其修复成功率达到 87.6%，显著高于基线。此外，在真实 TEE 项目上应用 TEERepair 时，作者提交了 5 个修复拉取请求，其中已有 2 个被项目维护者确认并合并。

Finding Missing Input Validation in TEEs via LLM-Assisted Symbolic Execution

• 作者：Chengyan Ma, Jieke Shi, Ruidong Han, Ye Liu, Yuqing Niu, David Lo
• arXiv URL：https://arxiv.org/abs/2605.22058

Abstract

可信执行环境（TEE）通过硬件强制隔离来保护敏感代码和数据免受不受信任软件的影响。尽管 TEE 提供了强有力的安全保证，但分析 TEE 应用仍然困难，因为搭建完整 TEE 构建与运行环境的成本高且复杂，而硬件隔离又限制了可观测性。本文提出 SymTEE，这是一种新颖的、由大语言模型辅助的符号执行框架，无需真实 TEE 环境即可检测 TEE 应用中缺失输入校验的问题。SymTEE 首先利用抽象语法树（AST）分析提取可能缺乏充分输入校验的 TEE 代码切片，然后使用 LLM（本文中为 GPT-5）自动将提取出的切片转换为与 KLEE 兼容的 harness 程序，其中包含轻量级的模拟执行环境，以支持符号分析。作者在 26 个漏洞上进行评估，其中包括 11 个真实世界漏洞和 15 个合成漏洞。结果表明，SymTEE 在检测缺失输入校验漏洞时达到了 100% 的精度和 92.3% 的召回率，平均分析成本仅为 0.05 美元。这些结果展示了 SymTEE 所开创的“LLM 辅助符号执行”范式的有效性与实用性：LLM 能够自主生成模拟环境，从而在无需复杂搭建的前提下实现自动安全分析，为可信计算系统提供更易用且更可扩展的分析框架。

RefusalBench: Why Refusal Rate Misranks Frontier LLMs on Biological Research Prompts

• 作者：Lukas Weidener, Marko Brkić, Mihailo Jovanović, Emre Ulgac, Aakaash Meduri
• arXiv URL：https://arxiv.org/abs/2605.21545

Abstract

前沿大语言模型正越来越多地作为生物研究工作流中的编排骨干被部署，但目前尚不存在一个共享的证据基础，用于比较它们在合法研究提示上的拒答行为。本文提出 RefusalBench，这是一个由 141 条提示构成的匹配三元组基准，被组织为 47 个 bundle，在保持任务表述恒定的前提下，只改变生物风险等级（良性、边界性、双用途），从而使得按风险层级进行比较时不受子领域混杂因素影响。一个包含 15 条提示的“应当拒绝”正控制模块用于建立各模型的校准下界，其中有三个模型连这些提示都未拒绝。在 2026 年 5 月快照中的 19 个前沿模型上，严格拒答率在相同提示下从 0.1% 到 94.6% 不等。地区司法辖区在该快照中并不能预测拒答行为，而提供商身份却能，其中 Anthropic 的 API 堆栈对应的拒答比值比达到 21.03。作者进一步指出，这种效应更应被理解为“访问路径层面”的，而非“模型权重层面”的：Anthropic 严格拒答中有 99.8% 都带有相同的安全策略原因码，表明其更像是少数规范化拒答模板，而非逐例模型推理。严格拒答率会误排模型安全校准能力：例如 Grok 4.20 在风险分层区分能力上表现最佳，但按整体拒答率只排第七；Claude Opus 4.7 的区分能力较前代下降了 65%，却没有提升对双用途提示的识别。18 个前沿模型中有 9 个表现出“双用途场景下边回避边提供帮助”的部分合规模式，而这种模式是二元拒答指标无法捕捉的。

The Neglected Baseline in Model Interpretation

• 作者：Yongjin Cui, Xiaohui Fan
• arXiv URL：https://arxiv.org/abs/2605.22417

Abstract

作者指出，现有模型解释方法通常忽视 baseline，而这种忽视往往会导致解释结果不精确甚至错误。本文重新表述了模型解释任务及其结果应满足的解释原则，以说明 baseline 的重要性。作者进一步统一了基于梯度的方法、Integrated Gradients（IG）方法和泰勒展开，澄清了它们之间的联系，并显式识别出每种方法对应的 baseline。在此基础上，作者分析了相关模型解释方法（IG、LayerCAM、ODAM、Difference Map）中的缺陷和错误，并主张应通过“归因结果与归因目标之间的归因误差”来精确评估模型解释结果质量，而不是采用边际效应类或假设模型表现完美等存在缺陷的评估方法。作者修正了 IG，并提出一种具备清晰且合理 baseline 的模型解释方法，取得了更好的结果。该方法支持基于任意层特征进行模型解释，不同层特征得到的解释结果都具有合理性，而它们之间的差异则反映了不同特征提取阶段的抽取程度差异。

Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions

• 作者：Jianan Ma, Xiaohu Du, Ruixiao Lin, Yaoxiang Bian, Jialuo Chen, Jingyi Wang, Xiaofang Yang, Shiwen Cui, Changhua Meng, Xinhao Deng, Zhen Wang
• arXiv URL：https://arxiv.org/abs/2605.22321

Abstract

随着自主智能体（如 OpenClaw）以深度系统级权限执行复杂任务，它们带来了严重且尚未缓解的安全风险。现有漏洞分析主要聚焦于单轮、无状态行为，却忽视了有状态多轮交互和动态工具调用所带来的更大攻击面。本文提出一个新的、多维度的规避框架，面向基于 LLM 的智能体系统。作者引入了三类隐蔽攻击向量：(1) 时间规避，即将恶意载荷拆散到连续多轮交互中；(2) 空间规避，即把载荷藏在复杂外部工件中，以躲避标准 LLM 解析机制；(3) 语义规避，即将恶意意图埋藏在看似无害的上下文噪声之下。为了系统量化这些威胁，作者构建了 A3S-Bench，这是一个包含 2254 条真实世界智能体执行轨迹的综合基准。作者把一个标准智能体框架分别接入 10 个主流 LLM 骨干模型，并在 20 个现实威胁场景上进行评估。结果表明，该规避框架将平均风险触发率从 28.3% 的基线提升到 52.6%。这些发现揭示出当前自主智能体系统在体系结构层面存在系统性脆弱性，而现有防御机制未能应对，说明亟需针对智能体独特威胁特征量身定制新的防御方法。

Quality-Assured Fuzz Harness Generation via the Four Principles Framework

• 作者：Ze Sheng, Dmitrijs Trizna, Luigino Camastra, Zhicheng Chen, Qingxiao Xu, Jeff Huang
• arXiv URL：https://arxiv.org/abs/2605.21824

Abstract

模糊测试是发现 C/C 软件中内存安全漏洞的主导技术，而其效果很大程度上取决于 fuzz harness 的质量，即将 fuzzer 与库 API 连接起来的程序。虽然越来越多的工具开始自动生成 harness，但目前还没有方法能够系统性地保证生成结果的正确性：逻辑错误、API 误用以及生命周期违规在源码层面往往不会被发现。随着 LLM 驱动的 harness 生成规模不断扩大，如果质量失控，规模反而会变成负担。本文提出 QuartetFuzz，这是一个在整个生成过程中系统性提升正确性的自主 harness 生成系统。其核心是“四原则”框架：逻辑正确性（P1）、API 协议一致性（P2）、安全边界遵守（P3）以及入口点充分性（P4）。这是首个在源码层面对 harness 正确性进行定义、同时具备数学规格和可实现检查的方法。作者将这四项原则落地为一个自主 LLM 智能体，在任何 fuzzing 开始之前，通过“生成-检查-修复”循环，产生满足 P1-P4 的 harness。该系统部署在 23 个横跨 C/C、Java 和 JavaScript 的开源项目上，共提交 42 个缺陷报告，其中 29 个已被上游修复或确认（包括 3 个 CVE），仅有 2 个被拒绝。生成过程中，内置的 P1/P2 检查自动拦截了 58 次由 harness 本身引发的崩溃，否则这些崩溃会被误认为真实漏洞。作为质量审计器应用于 70 个项目的 586 个现有生产 harness 时，该系统还识别出 53 个违规项，其中 45 个已被确认，35 个已被修复。

FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

• 作者：Ze Sheng, Zhicheng Chen, Qingxiao Xu, Kewen Zhu, Jeff Huang
• arXiv URL：https://arxiv.org/abs/2605.21779

Abstract

软件漏洞构成关键安全威胁，仅 2025 年就报告了近 5 万个 CVE。虽然大语言模型在自动漏洞检测方面展现出潜力，但仍存在三个关键挑战。第一，LLM 生成的漏洞报告误报率高，而且缺乏可复现的验证。第二，现有基于 LLM 的方法在漏洞定位粒度上选择不佳：函数级分析在上下文过大时容易遗漏缺陷，而行级分析又缺少足够语境。第三，现有方法难以推理具有复杂跨函数依赖与触发条件的漏洞。本文提出 FuzzingBrain V2，这是一个多智能体系统，通过四项关键贡献解决上述问题：(1) 构建在 Google OSS-Fuzz 之上的全自动漏洞分析，确保所有报告的漏洞都能够通过 fuzzing 复现；(2) 提出 Suspicious Point，这是一种基于控制流的新抽象，用于在最优粒度上进行精确漏洞定位；(3) 通过逻辑驱动的分层函数分析和双层 fuzzing，在资源受限条件下提升函数覆盖率；(4) 基于 MCP 的静态与动态分析工具，以及面向上下文的工程方法，用于增强对复杂漏洞的推理能力。在 AIxCC 2025 决赛的 C/C++ 数据集上，FuzzingBrain V2 达到了 90% 的检测率（40 个漏洞中检出 36 个）。在真实世界部署中，它在 12 个开源项目中发现了 29 个零日漏洞，全部被维护者确认并修复，其中 2 个已分配 CVE 编号。

ASSEMBLAGE-DEEPHISTORY: A Cross-Build Binary Dataset with Temporal Coverage

• 作者：Chang Liu, Noah Fleischmann, Nicolò Altamura, Edward Raff, James Holt, Kristopher Micinski
• arXiv URL：https://arxiv.org/abs/2605.21615

Abstract

现有二进制语料通常只覆盖一到两个变化维度：要么提供跨编译器构建却没有时间轴，要么为单一构建二进制提供 CVE 标签。没有任何数据集能够把跨构建多样性、跨版本历史和 CVE 标签统一进一个可查询结构中。本文提出 ASSEMBLAGE-DEEPHISTORY，将这些维度整合进同一个框架，使每个二进制的编译上下文、源代码、脆弱函数和软件包版本都作为一级元数据保存。ASSEMBLAGE-DEEPHISTORY 包含 73610 个二进制文件，覆盖 248 个开源项目，并在 Linux 与 Windows 上通过 GCC、Clang 和 MSVC 的多个优化级别生成多年历史版本。每个二进制都被索引进数据库，并与其源代码、函数、调试信息、构建变体、历史版本和脆弱函数关联。作者通过三个分析展示其价值：(1) 一个三阶段 LLM 基准，用于测试模型是在真正推理二进制漏洞，还是在匹配构建特定伪迹；(2) 比较 MalConv 嵌入、jTrans 函数嵌入和 TLSH 模糊哈希，以量化同包不同版本在这些空间中的聚类方式；(3) 一个贝叶斯回归，将二进制相似性分解为时间距离、文件变化和提交等因素的贡献。

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

• 作者：Dylan Feng, Pragya Srivastava, Cassidy Laidlaw
• arXiv URL：https://arxiv.org/abs/2605.21602

Abstract

许多大语言模型的安全与对齐失败都发生在分布外（OOD）情境中，即出现模型开发者未预见的异常提示或响应模式。本文系统研究 LLM 监控流水线是否能够检测这类 OOD 对齐失败，并提出一个名为 MOOD（Misalignment Out Of Distribution）的基准。由于现成模型已在大规模安全数据集上训练，要找到真正对它们而言属于 OOD 的失败很困难。作者绕开这一难点的方法是：在 MOOD 中提供一个受限训练集，用来训练作者自己的监控器，同时构造七个包含多样对齐失败的测试集，这些测试集均位于训练分布之外。借助 MOOD，作者发现 guard model（安全分类器）在 OOD 情况下往往泛化不佳。为此，作者提出将 guard model 与 OOD 检测器组合，并测试了四类 OOD 检测器。结果表明，把 guard model 与基于 Mahalanobis 距离和基于困惑度的 OOD 检测器组合后，可将召回率从 39% 提升到 45%。作者还进一步建立了跨模型规模的正向扩展趋势：与单纯把 guard model 参数增大 20 倍相比，引入 OOD 检测所带来的召回提升更高。这项工作表明，OOD 检测应成为 LLM 监控的重要组成部分，并为这一方向的后续研究打下基础。

编程语言、形式方法与系统基础设施

An Architecture for Decentralised Deployment and Operation of Blockchain Applications

• 作者：Fabian Stiehle, Kirill Inozemtsev, Ingo Weber
• arXiv URL：https://arxiv.org/abs/2605.22239

Abstract

区块链和分布式账本技术支持运行多种去中心化应用（dApps）。这类应用基于智能合约，而智能合约是一种以去中心化方式执行的可编程抽象。为了保证智能合约的正确性，区块链应用开发者通常依赖自动化测试、持续集成和持续部署等 DevOps 实践。然而，这类基础设施通常由单一实体控制。对于更大型的区块链应用，这一问题通常通过引入去中心化自治组织（DAO）的概念来解决：一旦提案达到预定义法定人数，系统即可自主执行。这样的治理架构本身较为复杂，而且还需要与现有的合约发现与可升级性模式集成。本文将这些概念与 DevOps 最佳实践结合起来，提出一种新的体系结构，同时保持对不同治理方式和升级实现的无关性。作者扩展了已有的 registry pattern，使其支持确定性部署，并提出一个去中心化部署框架，涵盖集成与部署流水线、用户界面以及版本控制集成。在该方法中，每一方都会在使用一个新部署的智能合约之前，自行实现并验证其测试。作者给出了开源参考实现，并对方案进行了充分评估。这一体系结构可为未来类似集成提供参考，而其开源框架的目标则是降低实践中采用此类流程的复杂度。

Contract Based Verification of Non-functional Requirements for Embedded Automotive C Code

• 作者：Jesper Amilon, Merlijn Sevenhuijsen, Mattias Nyberg, Karl Palmskog
• arXiv URL：https://arxiv.org/abs/2605.21532

Abstract

代码契约是为嵌入式系统中的安全关键软件指定功能需求的一种稳健方式。例如，ANSI/ISO C Specification Language（ACSL）可用于描述 C 代码的功能行为，随后再由 Frama-C 框架的 Wp 插件进行形式化验证。然而，对于嵌入式系统安全而言，非功能需求同样重要，例如对控制流和数据流的限制。由分包商、初级开发者或大语言模型生成的不受信任代码，即便能够通过 Wp 验证，也仍然可能调用不安全函数或使用未初始化变量。为解决这一问题，作者构建了一组关于安全关键嵌入式 C 代码非功能需求的通用规则。这些规则与 MISRA-C 等流行 C 规则集正交，并以模块及其通过接口进行交互为中心。为了支持这些规则的检查，作者提出了一种面向 C 模块的接口规格契约语言，并将其实现为 Frama-C 插件：它以一个 C 模块及其契约为输入，检查控制流和数据流属性，例如确保模块只调用被允许的函数。作者进一步将该检查器集成进一条工具链，从而支持对不受信任代码的模块契约和 ACSL 契约进行规格化与验证。文中报告了两个基于斯堪尼亚卡车安全关键 C 代码的案例研究，其中作者基于非正式系统需求定义了模块契约和 ACSL 函数契约，并使用该工具链完成了验证。

QuCtrl-BELL: A Compiler-Driven Sub-Microsecond Feedback Control Stack for Scalable Trapped-Ion Quantum Experiments

• 作者：Junpeng She, Ruoyu Yan, Zhizhen Qin, Zhanyu Li, Zhongtao Shen, Zichao Zhou, Binxiang Qi, Luming Duan
• arXiv URL：https://arxiv.org/abs/2605.22433

Abstract

随着囚禁离子量子计算扩展到更大的量子比特寄存器和更复杂的控制协议，经典控制系统面临一个根本性权衡：要实现亚微秒级板级反馈，就需要与硬件紧密耦合；而要保证可维护性与可扩展性，则需要清晰、模块化的软件抽象。本文提出 QuCtrl-BELL（Bell），一个面向囚禁离子量子控制的编译器驱动软件栈。其设计通过将控制流（包括循环、分支和同步）与硬件状态数据解耦，来化解这一矛盾。一个嵌入 Python 的领域专用语言（DSL）经过六阶段转译流水线被降级执行，该流水线覆盖控制流图构造、静态单赋值（SSA）转换、活性分析和图着色寄存器分配等步骤。编译器最终生成确定性的分布式板级程序以及紧凑的 step-table 数据。一个跨板同步协议可支持延迟低于 700ns 的反馈回路，而无需主机干预。Bell 已部署并在 QuCtrl-BELL 平台（RISC-V + PXIe）上完成评估，结果表明，基于编译器的基础设施能够为可扩展囚禁离子量子控制同时提供可编程性、确定性时序和模块化能力。

The Finite Length Property of the Rado Graph and Friends

• 作者：Jingjie Yang, Mikołaj Bojańczyk, Bartek Klin
• arXiv URL：https://arxiv.org/abs/2605.21681

Abstract

如果一个无限结构在某个给定域上具有有限长度性质，那么对于其每个有限次幂，相应自由向量空间上的等变子空间链长度都是有界的。已有工作表明，可数纯集合和无端点的可数稠密线性序都具有这一性质。本文将这些结果推广到两类更一般的结构：(a) 在特征为零的域上，任何可以由轨道数较少的有限子结构逼近的结构；(b) 任何有限词汇表（由一元和二元关系组成）上的、带自由 amalgamation 的 Fraïssé 极限，并可进一步扩展为带一个泛化全序的结构。作为特例，作者通过这两种方法都推出了 Rado 图具有有限长度性质。文中还描述了这一性质与函数空间、带权寄存器自动机以及轨道有限线性方程组之间的联系。

SENTIL: A Runtime Verification Tool for Probabilistic Temporal Logic

• 作者：Paapa Kwesi Quansah, Ernest Bonnah
• arXiv URL：https://arxiv.org/abs/2605.21676

Abstract

随机网络物理系统（CPS）广泛存在于从自动驾驶车辆到医疗设备的关键基础设施中。然而，尽管理论基础在近十年前就已建立，能够在运行时捕获这类随机系统概率动态的验证工具却总体上仍然缺失。本文提出 SENTIL，这是一种新型运行时验证工具，能够对用概率信号时序逻辑（PrSTL）表达的需求进行监控，并提供可证明的统计保证。SENTIL 结合了高效的 Rust 内核与通用生态集成能力，在性能上超过现有确定性监控器，同时通过统计模型检测、序贯概率比检验和自适应稀有事件估计，提供严格的概率性保证。SENTIL 使用流式算法进行增量式鲁棒性计算、并行蒙特卡洛采样，以及语言无关的 C-ABI，使其能够无缝部署到 ROS、Apollo、MATLAB Simulink 和 AUTOSAR 平台，并直接集成进 C、C++、Python 与 Java。作者在自动驾驶监控、医疗设备验证和生物网络等多种场景中对其进行了验证，结果表明，在保持可证明置信区间的同时，SENTIL 相比现有工具可带来 10 到 1000 倍的性能提升。SENTIL 的开源发布也表明，概率式运行时验证有望成为真实世界安全关键随机系统中的可部署基础设施。

DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback

• 作者：Yunpeng Dong, Jingkai He, Yuze Hou, Dong Du, Zhonghu Xu, Si Yu, Yubin Xia, Haibo Chen
• arXiv URL：https://arxiv.org/abs/2605.22781

Abstract

由 LLM 驱动的 AI 智能体需要进行高频状态探索，例如测试时树搜索和强化学习，这依赖于对完整沙箱状态（包括文件和进程状态，如内存、上下文等）进行快速检查点和回滚。现有机制通常复制整个状态，导致每次检查点/回滚的延迟高达数百毫秒甚至数秒，从而严重限制深度搜索和大规模分支扩展。本文观察到，AI 智能体中的后续检查点之间通常高度相似，因此沙箱不应当完整复制全部状态，而只需复制相邻检查点之间的差异。但要实现这一点并不容易，主要原因在于操作系统缺少相应支持。为此，本文提出一种新的操作系统级抽象 DeltaState，使 AI 智能体能够进行基于变更的事务式检查点/回滚，并配套设计了两个机制。首先，DeltaFS 通过把文件状态组织成多层、在检查点时冻结可写层并插入新层，将文件更新降级为 copy-on-write，从而实现基于变更的文件系统检查点/回滚；回滚也因此退化为一次简单的层切换。其次，DeltaCR 通过增量式转储支持基于变更的进程状态检查点/回滚，并通过绕过传统流水线、直接从冻结模板进程 fork() 的方式加速回滚。作者据此构建 DeltaBox，这是一个新型智能体沙箱，利用这两个机制把检查点和回滚延迟降到毫秒级。对 SWE-bench 和强化学习微基准的评估表明，DeltaBox 的检查点与回滚分别只需约 14ms 和 5ms，使智能体能够在固定时间预算下探索显著更多的搜索节点。

软件工程实践、需求与领域应用

At What Cost? Software Developers' Well-Being in the Age of GenAI

• 作者：Mariam Guizani, Maduka Subasinghage, Sherlock A. Licorish, Sofia Ouhbi
• arXiv URL：https://arxiv.org/abs/2605.22349

Abstract

生成式人工智能正迅速重塑软件开发，人们越来越强调通过它来加速生产率和优化绩效。然而，若过度聚焦这些维度，就可能忽视对开发者福祉的关键影响。GenAI 工具可能放大认知负荷，引入新的监督性劳动形式，并提升人们对产出和节奏的预期，从而导致压力、职业倦怠和工作生活失衡。GenAI 浪潮还在改变职业规范：它重塑职业入门路径，要求持续适应，并加剧获取资源与支持方面的不平等。本文作为一篇立场论文，呼吁对软件开发中的 GenAI 研究议程进行重新定向，从狭窄的绩效指标出发转向同时关注人的体验、社会情境与可持续生产率，并提出一个理论框架来支撑这一转向。

The 2nd Workshop on Agile Practice & Research: A Summary and Call For Research

• 作者：Karen Eilers, Michael Neumann, Eva-Maria Schön, Mali Senapathi, Maria Rauschenberger, Tiago Silva da Silva
• arXiv URL：https://arxiv.org/abs/2605.21690

Abstract

二十多年来，敏捷软件开发一直由学术研究与工业实践之间的相互作用所塑造，但二者之间仍然存在显著鸿沟。本文聚焦于三类研究-实践差距：理论差距、时间差距和转移差距。为应对这些问题，第二届 Agile Practice & Research Workshop 于 2026 年在巴西圣保罗举行的 XP 会议上召开，旨在把研究者和实践者聚集在一起，识别根本原因并共同制定解决方案。在此前两个已展示与会者贡献的环节基础上，参与者在结构化协作环节中分组围绕三类差距展开工作，并讨论其潜在成因与补救办法。组织者将讨论结果综合为四项改进研究-实践交汇的主张：(1) 改进科学传播；(2) 让研究更紧密地贴近新兴产业需求；(3) 为持续协作建立更强激励；(4) 将教育方法融入研究实践。基于这些主张，作者提出了三项研究呼吁：(a) 更广泛采用开放科学实践，以提升透明性、可复现性与累积性证据；(b) 通过更强的理论基础与更严谨的研究设计，提高实证研究质量标准；(c) 产出更加明确、价值导向的研究贡献，清晰阐明其实践与科学意义。本文既总结了此次工作坊，也呼吁进一步加强研究与实践的协作。

Requirements Perception Gap across Stakeholders: A Comparative Survey of Aged Care Digital Health Software

• 作者：Yuqing Xiao, John Grundy, Anuradha Madugalla, Elizabeth Manias
• arXiv URL：https://arxiv.org/abs/2605.21495

Abstract

本文旨在探索并比较三个关键利益相关者群体的看法：老年人、照护者（正式医疗服务提供者和非正式照护者）以及数字健康软件开发者，尤其关注关键功能性与非功能性需求。作者基于一项既有系统综述的结果设计问卷调查，收集并分析三类群体对当前老年照护数字健康软件的满意/不满意情况，以及他们对未来老年照护软件关键需求的看法。该混合方法调查共获得 249 份样本，包括老年人 103 人、正式/非正式照护者 41 人，以及软件开发者 105 人。数据分析结合了定量问卷与定性开放式回答，采用推断统计比较群体满意度差异，并使用主题分析处理开放式响应。研究揭示出一个显著的“需求差距”：软件开发者往往优先考虑高级功能和功能需求，并显著高估用户对易用性、响应速度等核心非功能需求的满意度。相反，相较于老年人和照护者，开发者对现有功能特征更为挑剔，而后两类群体则更重视简洁性与可靠性，而非功能密度。通过结合定量与定性分析，作者识别出利益相关者在当前设计与期望中的功能性和非功能性需求上何处一致、何处分歧。研究结果给出了一份利益相关者差距分析，可用于指导未来协同设计流程、近期产品决策以及面向隐私设计的建议。

Innovations in Cardless Artificial Intelligence Banking: A Comprehensive Framework for Cyber Secure and Fraud Mitigation using Machine Learning Algorithms

• 作者：Md Israfeel
• arXiv URL：https://arxiv.org/abs/2605.22604

Abstract

无卡人工智能银行业务的出现标志着金融格局中的一次范式转变，为用户带来了前所未有的安全性与便利性。本文提出了一个综合框架，旨在提升网络安全、引入自动生成的虚拟卡，并降低无卡 AI 银行系统中的欺诈风险。该框架设想了一种未来银行架构，利用 AI 驱动的数据加密来生成安全的虚拟卡，从而支持无缝交易。通过强调安全通信通道，它确保银行系统、持卡人和第三方供应商之间金融活动的完整性。基于 AI 的授权方法在每次交易中发挥关键作用，既完成认证，又主动识别潜在欺诈，展示了该框架在强化无卡 AI 银行安全方面的有效性。其初始方案以 AI 驱动、基于特征的银行系统为核心，可生成带有加密数据的虚拟卡，最大限度减少信息暴露并降低欺诈风险。进一步引入机器学习算法，则为应对潜在欺诈行为增加了一层保护。总体而言，所提出的框架为无卡 AI 银行系统建立了一种整体性的网络安全与反欺诈范式。该框架的实施将帮助金融机构解决传统银行系统的安全问题，并为一个更抗欺诈、更安全且更便利的未来银行环境铺平道路。

目录