软件工程论文速递 | 26.04.21 日报: 27篇新论文速递

• PlayCoder: Making LLM-Generated GUI Code Playable
• VLA Foundry: A Unified Framework for Training Vision-Language-Action Models
• BONSAI: A Mixed-Initiative Workspace for Human-AI Co-Development of Visual Analytics Applications
• Cascaded Code Editing: Large-Small Model Collaboration for Effective and Efficient Code Editing
• Towards More Empathic Programming Environments: An Experimental Empathic AI-Enhanced IDE

软件测试、调试与质量保障

• CASCADE: Detecting Inconsistencies between Code and Documentation with Automatic Test Generation
• Crash-free Deductive Verifiers
• Systematic Detection of Energy Regression and Corresponding Code Patterns in Java Projects
• Improving LLM-Driven Test Generation by Learning from Mocking Information
• DebugRepair: Enhancing LLM-Based Automated Program Repair via Self-Directed Debugging
• iCoRe: An Iterative Correlation-Aware Retriever for Bug Reproduction Test Generation
• MUCOCO: Automated Consistency Testing of Code LLMs
• Proactive Detection of GUI Defects in Multi-Window Scenarios via Multimodal Reasoning

安全、攻击评测与可信 AI 系统

• An AI Agent Execution Environment to Safeguard User Data
• Evaluating LLM-Generated Obfuscated XSS Payloads for Machine Learning-Based Detection
• Malicious ML Model Detection by Learning Dynamic Behaviors
• Do Agents Dream of Root Shells? Partial-Credit Evaluation of LLM Agents in Capture The Flag Challenges
• Refute-or-Promote: An Adversarial Stage-Gated Multi-Agent Review Methodology for High-Precision LLM-Assisted Defect Discovery
• Security Is Relative: Training-Free Vulnerability Detection via Multi-Agent Behavioral Contract Synthesis

形式化方法、程序语言与建模

• On Reasoning-Centric LLM-based Automated Theorem Proving
• Towards Formalising Stakeholder Context using SysML v2
• On Languages Describing Large Graph Classes
• Automatic constraint satisfaction problem
• Adding Compilation Metadata To Binaries To Make Disassembly Decidable

系统、云原生与实时运行时

• Predictive Autoscaling for Node.js on Kubernetes: Lower Latency, Right-Sized Capacity
• DPC: A Distributed Page Cache over CXL
• Scheduling Analysis of UAV Flight Control Workloads using Raspberry Pi 5 Using PREEMPT_RT Linux

AI 代码生成、代理与协作开发

PlayCoder: Making LLM-Generated GUI Code Playable

• 作者：Zhiyuan Peng, Wei Tao, Xin Yin, Chenhao Ying, Yuan Luo, Yiwen Guo
• arXiv URL：https://arxiv.org/abs/2604.19742v1

Abstract

大型语言模型（LLM）在代码生成方面已经取得了很强的结果，但其生成 GUI 应用、尤其是游戏的能力仍缺乏充分研究。现有基准主要通过测试用例评估正确性，但这对于 GUI 应用并不充分，因为这类系统具有交互性、事件驱动性，并要求在一系列用户操作中保持正确的状态转移。因此，对它们的评估应当关注交互流程和 UI 逻辑，而不仅仅是简单的通过/失败结果。为研究这一问题，作者提出了 PlayEval，一个具备仓库感知能力的基准，由 43 个使用 Python、TypeScript 和 JavaScript 编写的多语言 GUI 应用构成。不同于难以适配桌面环境的既有 GUI 基准，PlayEval 覆盖六类主要 GUI 应用，并可直接支持代码生成评测。作者进一步提出 Play@k 指标，用于衡量在生成的 k 个候选中，是否至少存在一个能够在端到端过程中无逻辑错误地“玩通”。为实现可靠评测，作者开发了 PlayTester，这是一种基于 LLM 的代理，可执行面向任务的 GUI 操作流程并自动检测逻辑违规。对 10 个最先进代码 LLM 的实验表明，尽管它们具有较高的编译成功率，但 Play@3 几乎为零，暴露出这些模型在生成逻辑正确 GUI 应用方面的重大缺陷。为解决这一局限，作者提出 PlayCoder，这是一种多代理、仓库感知的闭环框架，可对 GUI 应用代码进行生成、评估和迭代修复。PlayCoder 显著提升了功能正确性与语义对齐，在开源与闭源模型上最高分别达到 38.1% 的 Exec@3 和 20.3% 的 Play@3。案例研究进一步表明，该方法能够发现传统指标遗漏的静默逻辑缺陷，并通过有针对性的编辑将其修复。

VLA Foundry: A Unified Framework for Training Vision-Language-Action Models

• 作者：Jean Mercat, Sedrick Keh, Kushal Arora, Isabella Huang, Paarth Shah, Haruki Nishimura, Shun Iwase, Katherine Liu
• arXiv URL：https://arxiv.org/abs/2604.19728v1

Abstract

本文提出 VLA Foundry，这是一个开源框架，在单一代码库中统一了 LLM、VLM 和 VLA 的训练流程。现有大多数开源 VLA 工作主要专注于动作训练阶段，往往需要拼接彼此不兼容的预训练流水线；而 VLA Foundry 则提供了一套共享训练栈，支持从语言预训练到动作专家微调的端到端控制。该框架既支持从零开始训练，也支持使用来自 Hugging Face 的预训练骨干。为展示框架的实用性，作者训练并发布了两类模型：第一类完全通过其 LLM→VLM→VLA 流水线从零训练，第二类则建立在预训练的 Qwen3-VL 骨干之上。作者在 LBM Eval——一个开放数据、开源的模拟器——上评估了这两类模型的闭环策略性能，并同时为模拟器和 STEP 分析工具贡献了易用性改进，以便公众更方便地使用。在标准评测设定下，其完全开放、从零训练的模型与此前闭源工作性能相当，而替换为 Qwen3-VL 骨干后，则得到一个强大的多任务桌面操作策略，相比基线取得了明显优势。VLA Foundry 代码库已公开发布，全部多任务模型权重也已开源，并提供了额外的定性视频展示。

BONSAI: A Mixed-Initiative Workspace for Human-AI Co-Development of Visual Analytics Applications

• 作者：Thilo Spinner, Matthias Miller, Fabian Sperrle-Roth, Mennatallah El-Assady
• arXiv URL：https://arxiv.org/abs/2604.19247v1

Abstract

开发视觉分析（VA）应用需要将复杂的机器学习模型与富有表现力的交互式界面集成起来。开发者长期面临一项尖锐权衡：要么构建充满脆弱相互依赖的紧耦合整体式系统，要么依赖受限且过于简化的框架。与此同时，不受约束的一次性 AI 代码生成虽承诺高效率，却往往带来缺乏结构、不可审计的混乱结果。核心挑战在于：如何在严格约束下，将定制开发的可控性与表达能力，同 AI 生成的效率结合起来。为此，作者提出 BONSAI，这是一个面向人类与 AI 多代理协同开发 VA 应用的混合主动式工作空间。BONSAI 采用四层模块化架构（硬件、服务、编排、应用），允许人类开发者和 AI 开发者分别独立贡献可复用组件。该工作空间还将这种架构嵌入结构化的四阶段开发流程（规划、设计、监控与审查）之中，确保分布式主体性与完整溯源能力，使所有人类与 AI 的贡献都受到结构化约束并可被跟踪。作者通过案例研究对 BONSAI 进行评估，展示了其高效构建新型工具，以及直接根据研究论文描述快速重建复杂 VA 应用的能力。总体而言，本文贡献了一套概念性工作流、可扩展架构和集成系统，在复杂 VA 开发中成功平衡了 AI 的生成速度与工程所需的结构化严谨性。

Cascaded Code Editing: Large-Small Model Collaboration for Effective and Efficient Code Editing

• 作者：Chaozheng Wang, Zezhou Yang, Shuzheng Gao, Cuiyun Gao, Zongjie Li, Yichen Li, Ting Peng, Hailiang Huang, Yuetang Deng, Michael R. Lyu
• arXiv URL：https://arxiv.org/abs/2604.19201v1

Abstract

代码编辑是软件开发中的基础实践，开发者需要根据自然语言需求对现有代码库进行修改。准确的代码编辑既要求充分理解现有代码库，也要求准确理解修改需求。尽管大型语言模型在代码编辑任务上已展现出可观性能，但它们通常通过生成整个修改后文件来完成任务，而这些输出中大部分实际上是未改动代码，因此存在显著效率问题。较小模型理论上可以缓解这种低效，但它们通常缺乏理解长上下文代码所需的能力，难以保证编辑准确性。为同时兼顾效果与效率，作者提出将代码编辑分解为两阶段级联流程：第一阶段是“编辑草图生成”，由大模型先产生简洁的修改草图，以表达所需变更，这是更具挑战性的阶段；第二阶段是“编辑草图应用”，由小模型将这些草图整合进原始代码，从而生成最终编辑后的代码，这是相对更简单的阶段。这种级联设计减少了大模型需要生成的 token 数，因为大部分输出工作转由更高效的小模型完成，从而提升整体效率。然而，该方法的效果仍受限于当前小模型在处理长上下文场景和跨文件依赖方面的能力不足，而这些能力对于在真实代码库中准确应用编辑草图是必要的。为缓解这一问题，本文进一步围绕小模型的草图应用能力展开增强，并据此推动大模型与小模型的协同代码编辑。

Towards More Empathic Programming Environments: An Experimental Empathic AI-Enhanced IDE

• 作者：Justin Rainier Go, Kurt Christian Andaya, Roemer Gabriel Caliboso, Aaron Daniel Go, Jocelynn Cu
• arXiv URL：https://arxiv.org/abs/2604.19142v1

Abstract

随着生成式 AI 日益融入软件开发，开发者对其过度依赖以及批判性思维减弱的风险也在上升。本文提出“Ceci”，这是一个带有关怀与共情特性的 C 语言 IDE，旨在优先支持初学程序员的学习过程和情绪支持，而不是直接生成代码。研究者在 Ceci 与 VSCode + ChatGPT 之间开展了一项对比性试点研究。参与者完成了一个编程任务，并通过 NASA-TLX 工作负载量表和事后可用性问卷进行评估。尽管样本规模较小（n=11），结果显示实验组 Ceci 与对照组在感知有效性、学习效果和工作负载方面并无显著差异；但 Ceci 用户在错误纠正帮助的主观感知上显著更高（p = 0.0220）。这些发现表明，仅有共情式响应本身可能不足以提升学习者的结果、感知体验或降低负担。总体来看，本研究为后续工作提供了基础性框架。未来研究应探索更大的样本规模、更多样的编程任务，以及额外的共情特征，以更深入理解共情式编程环境在支持初学程序员方面的潜力；同时，还必须确保这些共情特征能与用户界面良好整合。

软件测试、调试与质量保障

CASCADE: Detecting Inconsistencies between Code and Documentation with Automatic Test Generation

• 作者：Tobias Kiecker, Jan Arne Sparka, Martin Reuter, Albert Ziegler, Lars Grunske
• arXiv URL：https://arxiv.org/abs/2604.19400v1

Abstract

保持代码与文档之间的一致性是软件开发中至关重要却经常被忽视的问题。即使是细微的不匹配，也可能使 API 用户困惑、引入新的缺陷，并增加整体维护成本。因此，亟需自动化方案帮助开发者识别代码—文档不一致。然而，由于自动化报告仍需人工确认，误报会带来严重后果：浪费开发者时间，并阻碍方法在实践中的采用。本文提出 CASCADE（Consistency Analysis for Source Code And Documentation through Execution），这是一种以降低误报为核心目标的新工具，用于检测代码与文档之间的不一致。CASCADE 利用大型语言模型直接从自然语言文档生成单元测试。由于这些测试源自文档，因此执行失败就意味着文档描述的行为与代码实际行为可能存在偏差。为进一步降低误报，CASCADE 还会根据文档生成代码，用以交叉验证所生成的测试。按设计，只有在同时满足两个条件时才报告不一致：现有代码未通过某个测试，而由文档生成的代码却能通过同一测试。作者在一个新的数据集上评估了 CASCADE，该数据集包含来自开源 Java 项目的 71 对不一致样本和 814 对一致样本。作者还将 CASCADE 应用于更多 Java、C# 与 Rust 仓库，发现了 13 个此前未知的不一致问题，其中 10 个随后已被修复，表明该方法具有较高精度并适用于真实代码库。

Crash-free Deductive Verifiers

• 作者：Wander Nauta, Marcus Gerhold, Marieke Huisman
• arXiv URL：https://arxiv.org/abs/2604.19448v1

Abstract

随着演绎验证器不断成熟，其潜在用户群正在从最初的核心开发者扩展到更广泛的使用者。若要让外部用户相信这些验证工具是可用的，它们必须能够开箱即用地稳定运行、提供有意义的错误信息，并给出正确结果。然而，演绎验证器本身通常是规模庞大且复杂的软件系统，要对其进行完整验证往往并不现实。因此，需要借助互补手段来提供此类保障。本文主张将模糊测试作为提升演绎验证器质量和鲁棒性的务实方法。作者概述了如何将模糊测试应用于演绎验证器，并通过与 VerCors 验证器集成的原型工具 AValAnCHE 展示了这一思路。实验结果表明，AValAnCHE 发现了 VerCors 中的若干问题，并证明该方法同样适用于其他演绎验证器。

Systematic Detection of Energy Regression and Corresponding Code Patterns in Java Projects

• 作者：François Bechet, Jérôme Maquoi, Luís Cruz, Benoît Vanderose, Xavier Devroey
• arXiv URL：https://arxiv.org/abs/2604.19373v1

Abstract

绿色软件工程正逐渐成为应对信息技术能耗不断增长的重要方向，尤其是在持续开发场景中更是如此。然而，当前仍缺乏能够自动识别跨提交能耗回归及其对应代码变更模式的方法。特别是，针对提交级别，通过识别能耗统计显著变化来自动检测回归的研究仍较少。本文提出 EnergyTrackr，这是一种用于跨多个提交检测能耗回归的方法，并可进一步用于识别可能导致软件能耗随时间升高的代码反模式。作者介绍了其实证评估，包括仓库挖掘与源代码分析，共分析来自三个 Java 项目的 3,232 次提交，并展示了该方法识别显著能耗变化的能力。作者还总结了若干反复出现的反模式，例如缺失提前返回以及代价高昂的依赖升级。作者期望 EnergyTrackr 能帮助开发者更准确地监测项目中的能耗回归与改进，识别相关代码反模式，并协助优化源代码以降低软件能耗。

Improving LLM-Driven Test Generation by Learning from Mocking Information

• 作者：Jamie Lee, Flynn Teh, Hengcheng Zhu, Mengzhen Li, Mattia Fazzini, Valerio Terragni
• arXiv URL：https://arxiv.org/abs/2604.19315v1

Abstract

近年来，大型语言模型在自动化单元测试生成方面展现出很强潜力。这促使作者研究：现有测试套件中由开发者定义的测试替身（通常称为 mock）信息，是否可以被利用来提升 LLM 驱动的测试生成效果。为此，作者提出 MOCKMILL，这是一种基于 LLM 的技术与工具，能够利用从开发者编写测试中自动抽取的 mocking 信息生成测试用例。MOCKMILL 面向那些在现有测试中被测试替身替换的组件，利用其中编码的桩行为和交互期望来引导测试生成，并结合迭代式“生成—修复”流程，以确保生成的测试可执行。作者在来自六个 Java 项目的 10 个开源类上，使用四种 LLM 对 MOCKMILL 进行了评估，并将生成测试与项目现有测试及若干基线方法生成的测试进行比较。结果表明，MOCKMILL 生成的测试能够覆盖现有测试和基线方法遗漏的代码行，并杀死更多变异体。总体而言，这些发现为如下观点提供了初步证据：利用 mocking 信息，是增强基于 LLM 的测试生成的一种互补且有效的途径。

DebugRepair: Enhancing LLM-Based Automated Program Repair via Self-Directed Debugging

• 作者：Linhao Wu, Yifei Pei, Zhen Yang, Kainan Li, Zhonghang Lu, Hao Tan, Xiran Lyu, Jia Li, Yizhou Chen, Pengyu Xue, Kunwu Zheng, Dan Hao
• arXiv URL：https://arxiv.org/abs/2604.19305v1

Abstract

自动程序修复（APR）已经受益于大型语言模型在代码理解与生成方面的能力。现有基于反馈的 APR 方法通常利用测试执行反馈迭代优化候选补丁，并取得了较有前景的效果。然而，大多数方法依赖于失败的结果级症状，例如堆栈跟踪；这些信息只能说明失败如何被观测到，却无法揭示定位根因所需的中间运行时状态。因此，LLM 往往在缺乏充分运行时证据的情况下推断缺陷成因，进而产生错误补丁。为解决这一问题，本文提出 DebugRepair，这是一种面向 LLM 的自定向调试式 APR 框架。DebugRepair 通过模拟调试收集中间运行时证据，以增强补丁迭代优化。它由三个部分组成：测试语义净化、模拟插桩以及由调试驱动的对话式修复。三者协同工作，可减少噪声测试上下文，通过有针对性的调试语句以及基于规则的回退策略收集运行时轨迹，并结合已有尝试和新观察到的运行状态逐步改进候选补丁。作者在 Java 和 Python 的三个基准上对 DebugRepair 进行了评估。实验表明，该方法在与 15 种方法比较时达到了最先进性能。使用 GPT-3.5 时，它在 Defects4J 上正确修复 224 个缺陷，较此前最优 LLM-based 方法提升 26.2%；使用 DeepSeek-V3 时，则正确修复 295 个 Defects4J 缺陷，比次优基线多 59 个。在另外五种骨干 LLM 上，DebugRepair 相较原始设置将修复性能提高了 51.3%。消融实验进一步验证了所有组件的有效性。

iCoRe: An Iterative Correlation-Aware Retriever for Bug Reproduction Test Generation

• 作者：Junyi Wang, Jialun Cao, Zhongxin Liu
• arXiv URL：https://arxiv.org/abs/2604.19224v1

Abstract

根据 issue 描述自动生成缺陷复现测试（BRT）对软件维护至关重要。基于 LLM 的方法在这一任务上已展现出巨大潜力，但其效果高度依赖于能否从代码库中检索到高质量上下文。现有方法在检索阶段通常依赖 BM25 等传统方法，或依赖 LLM 驱动的策略。LLM 检索方法通常让模型借助工具自主探索仓库，或从给定文件与代码片段列表中选择最相关上下文。然而，这些检索方法存在三项关键局限：其一，对源码和测试用例常采用统一策略，忽略了两者不同的检索需求；其二，仅关注语义相似性而忽视函数调用关系，导致上下文不相关；其三，检索阶段缺少来自生成阶段的反馈环，无法依据执行结果迭代优化上下文。这些问题共同导致检索到的上下文质量较低，从而限制了缺陷复现的准确性。为此，作者提出 iCoRe，这是一种显式建模三类相关性的迭代式、相关性感知上下文检索方法：源码与测试之间的相关性、文本语义与函数调用结构之间的相关性，以及检索阶段与生成阶段之间的反馈相关性。作者将 iCoRe 与一个基于 LLM 的 BRT 生成器集成，并在 SWT-bench Lite 与 TDD-bench Verified 基准上进行了全面评估。实验结果表明，该方法分别达到 42.0% 与 52.8% 的 Fail-to-Pass 率，相比现有检索方法实现了 19.7%–31.7% 的相对提升。

MUCOCO: Automated Consistency Testing of Code LLMs

• 作者：Chua Jin Chou, Khant That Lwin, Ezekiel Soremekun
• arXiv URL：https://arxiv.org/abs/2604.19086v1

Abstract

代码 LLM 往往会表现出不一致的程序行为。开发者通常借助基准来评估代码 LLM，但大多数基准是手工构造的、静态的，并不针对一致性属性。本文提出的科学问题是：如何自动发现代码 LLM 中的不一致程序行为？为应对这一挑战，作者提出一种自动化一致性测试方法 MUCOCO，它利用保持语义不变的变异分析来暴露代码 LLM 的不一致行为。给定一个编程查询，MUCOCO 会自动将其程序转换为语义等价的程序（即变异体），并检测这些变异体与原始程序之间是否存在不一致，例如输出不同或测试失败。作者在四类编程任务和七个 LLM 上评估了 MUCOCO。结果显示，MUCOCO 能有效揭示不一致问题，并优于最接近的基线方法 TURBULENCE。由 MUCOCO 生成的输入中，大约每七个就有一个（15%）能够暴露不一致现象。该工作表明，代码 LLM 有必要接受针对一致性属性的专门测试。

Proactive Detection of GUI Defects in Multi-Window Scenarios via Multimodal Reasoning

• 作者：Xinyao Zhang, Rui Wang, Jinhao Cui, Haotian Huang, Wei Xue, Wenhua Hu, Jianwen Xiang, Rui Hao
• arXiv URL：https://arxiv.org/abs/2604.19081v1

Abstract

多窗口移动场景，例如分屏和折叠模式，会迫使应用适应不断变化的窗口尺寸与动态布局回流，因此更容易暴露 GUI 显示缺陷。现有检测技术主要存在两点不足：一是它们大多是被动式的，只在问题状态已出现后对截图进行分析；二是这些方法主要针对传统全屏界面设计，在多窗口环境下效果有限。本文提出一个面向多窗口移动场景 GUI 显示缺陷检测的端到端框架。该框架在应用探索过程中主动触发分屏、折叠和窗口切换状态，利用 Set-of-Mark（SoM）将截图与控件级界面元素对齐，并结合多模态大型语言模型和链式思维提示，对显示缺陷进行检测、定位和解释。作者还构建了一个基于 50 个真实 Android 应用的 GUI 显示缺陷基准。实验结果表明，多窗口设定显著增加了布局相关缺陷的暴露，其中与传统全屏设定相比，文本截断增加了 184%。在应用级别上，该方法检测出 40 个易出现缺陷的应用，误报率为 10.00%，漏报率为 11.11%，优于 OwlEye 和基于 YOLO 的基线；在细粒度层面上，其在控件遮挡检测上达到最佳 F1 值 87.2%。

安全、攻击评测与可信 AI 系统

An AI Agent Execution Environment to Safeguard User Data

• 作者：Robert Stanley, Avi Verma, Lillian Tsai, Konstantinos Kallas, Sam Kumar
• arXiv URL：https://arxiv.org/abs/2604.19657v1

Abstract

AI 代理被寄予厚望，作为面向用户的通用个人助理而存在，这要求它们能够访问用户的私有数据，例如个人信息和财务信息。这会带来严重的安全与隐私风险。攻击者可能通过提示注入等方式攻击 AI 模型，以窃取用户数据。进一步地，将私有数据交给 AI 代理，也要求用户信任潜在并不可靠、甚至可能已被攻破的 AI 模型提供方。本文提出 GAAP（Guaranteed Accounting for Agent Privacy），这是一种面向 AI 代理的执行环境，能够为用户私有数据提供机密性保证。GAAP 通过动态且定向的用户提示，收集用户对私有数据如何可被共享的权限规范，并强制确保代理对私有数据的披露——包括向 AI 模型及其提供方披露——均符合这些规范。关键在于，GAAP 以确定性的方式提供这一保证：既不需要信任代理本身能妥善处理私有数据，也不要求 AI 模型或用户提示天然免于攻击。GAAP 通过追踪 AI 代理访问和使用私有数据的方式来执行用户权限规范。它在信息流控制基础上引入新的持久化数据存储与注释机制，从而能够跟踪私有信息在单一任务的多次执行步骤之间、以及跨越时间分隔的多个任务之间的流动。评估结果证实，GAAP 能够阻止所有数据披露攻击，包括那些会使其他最先进系统向不可信方泄露私有数据的攻击，同时不会显著损害代理的实用性。

Evaluating LLM-Generated Obfuscated XSS Payloads for Machine Learning-Based Detection

• 作者：Divyesh Gabbireddy, Suman Saha
• arXiv URL：https://arxiv.org/abs/2604.19526v1

Abstract

跨站脚本攻击（XSS）依然是一类持续存在的 Web 安全漏洞，尤其是因为混淆技术能够在保持恶意载荷行为不变的同时改变其表面形式。这类变换使传统检测系统以及基于机器学习的检测系统都更难可靠识别攻击。现有用于生成混淆载荷的方法通常强调语法多样性，但并不总能保证生成样本在行为上仍然有效。本文提出一条结构化流程，用于利用大型语言模型生成并评估混淆的 XSS 载荷。该流程将确定性变换技术与基于 LLM 的生成相结合，并采用基于浏览器运行时的评估过程，在受控执行环境中比较载荷行为。由此，生成样本的评估依据不再仅是语法相似性，而是可观测的运行时行为。在评测中，一个未经微调的基线语言模型仅获得 0.15 的运行时行为匹配率；而在基于保持行为不变的源—目标混淆对进行微调后，该匹配率提升到 0.22。尽管这是可测量的改善，但结果表明当前 LLM 仍难以生成能够保留观测运行时行为的混淆样本。下游分类器评估进一步显示，在该设定下加入生成载荷并未改善检测性能；不过，经行为过滤后的生成样本可以被纳入，而不会实质性降低性能。总体而言，本研究同时展示了生成模型用于对抗性安全数据生成的潜力与局限，并强调运行时行为检查对于提升下游检测系统训练数据质量的重要性。

Malicious ML Model Detection by Learning Dynamic Behaviors

• 作者：Sarang Nambiar, Dhruv Pradhan, Ezekiel Soremekun
• arXiv URL：https://arxiv.org/abs/2604.19438v1

Abstract

预训练机器学习模型（PTM）通常通过 Model Hub（如 Hugging Face）以 Pickle 等标准格式发布，以促进访问与复用。然而，这种 ML 供应链场景容易受到恶意攻击，这些攻击能够在可信用户环境中执行任意代码，例如在模型加载期间。为检测恶意 PTM，现有最先进检测器（如 PickleScan）依赖规则、启发式方法或静态分析，但忽略了模型的运行时行为。因此，它们要么因低估而漏检恶意模型（如黑名单方案），要么因高估而将良性模型误判（如静态分析或白名单方案）。为应对这一挑战，本文提出 DynaHug，一种通过动态分析与机器学习学习良性 PTM 行为，从而检测恶意 PTM 的新方法。DynaHug 在特定任务的良性模型运行时行为上训练一个机器学习分类器（单类 SVM，OCSVM）。作者利用来自 Hugging Face、MalHug 等不同来源的超过 25,000 个良性与恶意 PTM 对 DynaHug 进行了评估，并将其与多种最先进检测器比较，包括静态、动态以及基于 LLM 的检测器。结果表明，按 F1 分数衡量，DynaHug 在效果上最多可比现有基线高 44%。消融研究还证明，动态分析、OCSVM 和聚类等设计决策都对 DynaHug 的有效性有积极贡献。

Do Agents Dream of Root Shells? Partial-Credit Evaluation of LLM Agents in Capture The Flag Challenges

• 作者：Ali Al-Kaswan, Maksim Plotnikov, Maxim Hájek, Roland Vízner, Arie van Deursen, Maliheh Izadi
• arXiv URL：https://arxiv.org/abs/2604.19354v1

Abstract

大型语言模型代理正日益被提议用于自主网络安全任务，但它们在真实进攻性场景中的能力仍缺乏清晰认识。本文提出 DeepRed，这是一个开源基准，用于在隔离的虚拟化环境中评估基于 LLM 的代理执行真实 Capture The Flag（CTF）挑战的能力。DeepRed 将代理置于一个 Kali 攻击者环境中，提供终端工具和可选网页搜索能力，并通过私有网络连接到目标挑战，同时记录完整执行轨迹以供分析。为了超越简单的“解出/未解出”二元结果，作者提出了一种部分得分方法：基于公开题解构造挑战特定检查点，再配合自动化的“先总结后裁判”日志标注流程，以判断代理完成了哪些检查点。基于 DeepRed，作者在 10 个不同类别的基于虚拟机的 CTF 挑战上，对 10 个可商业获取的 LLM 进行了基准评测。结果表明，当前代理能力仍然有限：最佳模型的平均检查点完成率仅为 35%，在常见挑战类型上表现最好，而在需要非常规发现过程和更长时程适应能力的任务上表现最弱。

Refute-or-Promote: An Adversarial Stage-Gated Multi-Agent Review Methodology for High-Precision LLM-Assisted Defect Discovery

• 作者：Abhinav Agarwal
• arXiv URL：https://arxiv.org/abs/2604.19049v1

Abstract

LLM 辅助缺陷发现正面临精度危机：大量“看似合理但实际上错误”的报告淹没维护者，并削弱真实发现的可信度。本文提出 Refute-or-Promote，这是一种推理时可靠性模式，结合了用于候选生成的分层上下文搜寻（SCH）、带有对抗性否决任务的阶段门控、上下文不对称设计，以及跨模型评论者（CMC）。在每一个提升阶段，对抗性代理都会尝试推翻候选；冷启动评审者旨在减少锚定级联效应；跨模型家族的审查则有助于捕获同一家族模型容易共同忽略的盲点。在一个持续 31 天、覆盖 7 个目标（安全库、ISO C 标准和主流编译器）的活动中，该流水线在进入披露阶段前淘汰了约 79% 的 171 个候选（回顾性汇总）；在采用统一协议的子集（lcms2、wolfSSL；n=30）上，前瞻性淘汰率达到 83%。最终产出包括：4 个 CVE（其中 3 个已公开、1 个仍处禁运）、LWG 4549 被 C 工作论文接收、5 个已合并的 C++ 编辑性 PR、3 个编译器一致性缺陷、8 个未分配 CVE 但已合并的安全相关修复、1 个提交审议中的 RFC 9000 勘误，以及 1 个以上依据协调披露流程处理的 FIPS 140-3 规范一致性问题——所有结果都通过外部接收情况而非基准成绩来评估。最具启发性的失败案例是：10 名专门评审者曾一致认定 OpenSSL 的 CMS 模块中存在一个并不存在的 Bleichenbacher 填充预言机，而它最终仅被一次经验性测试否决，这也促使作者强调必须加入经验性验证关卡。本文并未声称自主发现漏洞；其核心贡献在于提供一种外部结构，用于过滤 LLM 代理持续产生的假阳性。作为超越缺陷发现领域的初步迁移测试，简化版跨模型家族批评机制还在 SWE-bench Verified 上解决了 5 个此前未解的 SymPy 实例，以及 1 个 SWE-rebench 的高难任务。

Security Is Relative: Training-Free Vulnerability Detection via Multi-Agent Behavioral Contract Synthesis

• 作者：Yongchao Wang, Zhiqiu Huang
• arXiv URL：https://arxiv.org/abs/2604.19012v1

Abstract

基于深度学习的漏洞检测曾在早期基准上显示出良好前景，但近期评测揭示了灾难性退化：在旧数据集上达到 F1 > 0.68 的模型，在严格去重设定下会跌落到 0.031。作者将根因归结为“语义歧义问题”：相同代码在不同项目特定行为契约下可能是安全的，也可能是有漏洞的，因此全局分类范式在根本上是不充分的。为此，本文提出 Phoenix，这是一种无需训练的多代理框架，通过“行为契约综合”来解决这一歧义。Phoenix 将检测分解为三个阶段：首先由 Semantic Slicer 提取与漏洞相关的最小上下文；随后由 Requirement Reverse Engineer 综合出采用 Gherkin 表示的行为规范，以编码安全契约；最后由 Contract Judge 通过严格一致性检查，根据这些规范评判代码。作者在 PrimeVul Paired 上评估 Phoenix，结果显示其达到 F1 = 0.825、Pair-Correct = 64.4%，超过 RASM-Vul（F1 = 0.668）和 VulTrial（F1 = 0.563），而所用模型规模最多小 48 倍（7–14B 对 671B）。对 25 种配置进行的消融分析表明，Gherkin 规范是决定性因素，可带来 0.09 至 0.35 的 F1 增益。错误分析还发现，18% 的“假阳性”实际上识别了已修补代码中的真实安全隐患，这进一步说明：安全性并非代码语法的绝对属性，而是相对于行为契约来定义的。

形式化方法、程序语言与建模

On Reasoning-Centric LLM-based Automated Theorem Proving

• 作者：Yican Sun, Chengwei Shi, Hangzhou Lyu, Yingfei Xiong
• arXiv URL：https://arxiv.org/abs/2604.19558v1

Abstract

自动定理证明是形式化方法中的基础问题，近期的发展趋势是将大型语言模型与证明助手结合，构建高效的证明代理。尽管现有证明代理已展现出有前景的性能，但它们并未充分利用现代 LLM 在高层规划与自我批判方面的推理能力。作者认为，证明代理不应仅仅生成 tactic，还应围绕证明计划进行策略性推理，并批判性地评估自己的方案。本文提出 ReCent-Prover，这是一种面向 Rocq 的、以推理为中心的 LLM 证明代理，旨在解决当前系统的两个关键局限。第一，作者提出“带反思的验证”，使 LLM 能够审查自己生成的 tactic，并在反思发现潜在错误时综合失败摘要，从而更早地过滤可能被误用的 tactic。第二，作者提出“带规划的检索”，它不是基于子目标相似度进行检索，而是以 LLM 生成的证明计划为条件，检索与预期证明策略相匹配的引理与证明。两项技术都会增加 LLM 调用次数。然而，在 CoqStoq 基准上的评估表明，即使在 LLM 调用预算相同的条件下，ReCent-Prover 在已证明定理数量上仍相较此前最先进方法提升了 22.58%，说明这种以推理为中心的设计显著增强了自动定理证明能力。

Towards Formalising Stakeholder Context using SysML v2

• 作者：Matthew Harrison, John Carlin, Chengyuan Liu, Sarah Dunnett, Siyuan Ji
• arXiv URL：https://arxiv.org/abs/2604.19390v1

Abstract

本文提出一个框架，用于弥合主观利益相关者语境与形式化系统架构之间的鸿沟。该框架结合了软系统方法论（SSM）与系统建模语言第二版（SysML v2）。其方法利用 Kernel Modelling Language（KerML）的精确性，以及 SysML v2 与 ISO 42010 的一致性，来定义一个参考架构，从而将 SSM 的输出映射到 SysML v2 中的利益相关者、关注点等概念。作者通过一个案例研究展示了该框架的应用，突出体现了从利益相关者语境到系统架构之间可追踪的路径。作者预计，相较于形式化程度较低的方法，借助 SysML v2 的结构化映射与更高语义精度，可以降低误解风险；但其在多样化利益相关者场景中的经验验证仍有待未来工作完成。本文识别出的主要权衡在于：SysML v2 的文本化记法提高了方法入门门槛。

On Languages Describing Large Graph Classes

• 作者：Henning Fernau, Pamela Fleischmann, Kevin Mann, Silas Cato Sacher
• arXiv URL：https://arxiv.org/abs/2604.19719v1

Abstract

本文提出一种利用形式语言表示图类的新概念。不同于 Kitaev 与 Pyatkin 的奠基性工作——他们通过“词”来表示图——作者使用形式二元语言，从而使语言中的词集合能够作为一组模式来定义图中的边。特别地，本文研究了若干著名语言，如回文语言、复制词、Lyndon 词和 Dyck 词，并考察在对这些语言施加限制时，如何借此表示全体图或特定图类。

Automatic constraint satisfaction problem

• 作者：Andrei Bulatov, Xiaoyang Gong, Bakh Khoussainov, Xinyao Wang
• arXiv URL：https://arxiv.org/abs/2604.19266v1

Abstract

本文研究了一类约束语言由有限自动机定义的约束满足问题（CSP），即基于自动机的 CSP。其核心概念是“自动约束满足问题”（AutCSP）：在该框架下，约束语言和实例都由有限自动机来刻画。AutCSP 能表示无限但可有限描述的关系集合，从而能够简洁表示复杂约束。对 AutCSP 复杂性的研究揭示了经典 CSP、自动机与逻辑之间的相互作用，并更清晰地刻画了可处理约束与不可处理约束之间的边界。作者证明，判断某个运算是否为此类语言的多态可以在多项式时间内完成。在此基础上，本文为 AutCSP 建立了若干复杂性分类结果。特别地，作者证明 Schaefer 二分定理可推广至布尔域上的 AutCSP，并给出了若干算法，能够借助自动多态性判定任意有限域上一些 AutCSP 类的可解性。本文的重要一点在于，这些多项式时间算法运行在 AutCSP 实例上，而这类实例相较标准 CSP 对应物可能具有指数级更紧凑的表示。

Adding Compilation Metadata To Binaries To Make Disassembly Decidable

• 作者：Daniel Engel, Freek Verbeek, Pranav Kumar, Binoy Ravindran
• arXiv URL：https://arxiv.org/abs/2604.19628v1

Abstract

二进制可执行文件是软件分发与执行的标准形式，但同时它也是最不透明的软件表示之一。若能在二进制格式中加入提供安全相关信息的元数据，例如哪些数据是编译器意图作为可执行指令的、内存区域应如何界定边界等，那么软件的安全性与可维护性都将大幅提升。本文提出一种二进制格式，试图在“被剥离信息的黑盒二进制”和“完全开放源代码”之间取得平衡。作者提供了一个工具，用于生成刻画编译器意图的元数据并将其插入二进制文件中。该元数据使得二进制能够被提升为正确且可重新编译的更高层表示，也让分析与插桩变得更加可靠。评估表明，加入这些元数据不会影响程序的运行时行为或性能；与 DWARF 相比，其元数据体积大约只有后者的 17%。作者还通过编译一组覆盖广泛的真实 C/C++ 二进制程序并展示其可被提升、插桩和重新编译且行为不变，验证了方法的正确性。

系统、云原生与实时运行时

Predictive Autoscaling for Node.js on Kubernetes: Lower Latency, Right-Sized Capacity

• 作者：Ivan Tymoshenko, Luca Maraschi, Matteo Collina
• arXiv URL：https://arxiv.org/abs/2604.19705v1

Abstract

Kubernetes 为 Node.js 工作负载提供了两条默认扩缩容路径，但二者都存在结构性局限。Horizontal Pod Autoscaler（HPA）基于 CPU 利用率扩缩容，而 CPU 利用率并不能直接衡量事件循环饱和程度：Node.js Pod 可能已经开始排队请求并违反延迟 SLO，但 CPU 仍仅显示中等使用率。KEDA 虽然通过更丰富的触发器扩展了 HPA，包括事件循环指标，但它仍继承了相同的反应式控制回路，只会在过载开始之后才检测到问题。等到新 Pod 启动并开始吸收流量时，系统可能已经退化。降低阈值只是在移动运行点，并未改变这一动态：扩缩容器依旧是在响应一个已经越过的值，只是以持续过度供给为代价。为此，作者提出一种预测式扩缩容算法，在新增容量真正就绪之前预测未来负载，并据此提前扩容。按实例划分的指标会受到扩缩容动作本身的污染：增加一个实例会重新分配负载，并改变所有实例上的指标，即使外部流量并未变化。作者观察到，若转而使用一种在扩缩容下近似不变的集群级聚合指标，就可以消除这一反馈回路，形成适合短期外推的稳定信号。基于此，作者定义了一个指标模型，即三类函数的集合，用于编码某一指标与扩缩容之间的关系，并提出一个五阶段流水线，将原始的、时间不规则且不完整的指标数据转化为干净的预测信号。在针对 HPA 与 KEDA 的基准比较中，无论是平稳爬坡负载还是突发尖峰，该算法都能在整个过程中将单实例负载维持在目标阈值附近。在平稳爬坡场景下，其延迟中位数为 26ms，而 KEDA 为 154ms，HPA 为 522ms。

DPC: A Distributed Page Cache over CXL

• 作者：Shai Bergman, Zhe Yang, Julien Eudine, Giorgio Negro, Onur Mutlu, Arash Tavakkol, Ji Zhang
• arXiv URL：https://arxiv.org/abs/2604.19494v1

Abstract

现代分布式文件系统通常依赖各节点彼此独立的页缓存，在整个集群中对热点数据进行本地复制。尽管这种架构可以保证快速的本地访问，但由于大量数据冗余，它并未有效利用集群聚合 DRAM 容量；同时，它还需要通过重量级、基于锁的协议维护一致性，带来高昂开销。本文关注一种分布式页缓存的设计，该设计将整个集群主存视为统一的缓存预算，同时保留标准文件系统接口与语义。作者提出 Distributed Page Cache（DPC），这是一个构建在 Compute Express Link（CXL）3.0 内存语义之上的操作系统级分布式页缓存。DPC 在页粒度上维持“单副本不变式”：每个文件页恰好只有一个所有者节点持有唯一驻留于 DRAM 中的副本，其他节点通过基于 CXL 的远程映射访问该页，而不是创建新的副本。DPC 在一个基于 CXL 的仿真框架上完成端到端实现，该框架对多主机 CXL 3.0 内存互连进行了建模，使得在硬件尚未广泛可用时仍可开展详细评估。面对真实世界和具有代表性的数据共享负载，DPC 可带来最高 12.4 倍、几何平均 5.6 倍的加速效果。

Scheduling Analysis of UAV Flight Control Workloads using Raspberry Pi 5 Using PREEMPT_RT Linux

• 作者：Luiz Giacomossi, Håkan Forsberg, Ivan Tomasic, Baran Çürüklü, Tommaso Cucinotta
• arXiv URL：https://arxiv.org/abs/2604.19275v1

Abstract

现代无人机（UAV）架构越来越倾向于在单一通用操作系统（GPOS）上统一高层自主能力与低层飞控功能。然而，复杂的多核片上系统（SoC）会因共享资源争用而引入显著的时序不确定性。本文对运行在 Raspberry Pi 5 上的 PREEMPT_RT Linux 内核进行了体系结构分析，重点隔离了内核激活路径——延迟执行的 SoftIRQ 与实时直接激活——对 250 Hz 控制回路的影响。结果显示，在高压力负载下，标准内核并不适用，其最坏情况延迟超过 9 ms。相比之下，PREEMPT_RT 将最坏情况延迟降低了近 88%，降至 225 微秒以下，并通过强制直接唤醒路径缓解了操作系统噪声。这些结果表明，尽管 PREEMPT_RT 解决了调度方差问题，但现代 SoC 上残余的抖动主要仍由硬件层面的内存争用驱动。

目录