目录
生成式 AI、编码智能体与人机协同
• Large Language Models to Enhance Business Process Modeling: Past, Present, and Future Trends • Learned or Memorized ? Quantifying Memorization Advantage in Code LLMs • Towards Personalizing Secure Programming Education with LLM-Injected Vulnerabilities • CollabCoder: Plan-Code Co-Evolution via Collaborative Decision-Making for Efficient Code Generation • On the Effectiveness of Context Compression for Repository-Level Tasks: An Empirical Investigation • Figma2Code: Automating Multimodal Design to Code in the Wild • The Cognitive Circuit Breaker: A Systems Engineering Framework for Intrinsic AI Reliability • AI Coding Agents Need Better Compiler Remarks
软件测试、诊断与质量保障
• Log-based vs Graph-based Approaches to Fault Diagnosis • Sentiment analysis for software engineering: How far can zero-shot learning (ZSL) go? • Zero-shot Evaluation of Deep Learning for Java Code Clone Detection • Debugging Performance Issues in WebAssembly Runtimes via Mutation-based Inference • V2E: Validating Smart Contract Vulnerabilities through Profit-driven Exploit Generation and Execution • WebMAC: A Multi-Agent Collaborative Framework for Scenario Testing of Web Systems • TORAI: Unsupervised Fine-grained RCA using Multi-Source Telemetry Data • From Exploration to Specification: LLM-Based Property Generation for Mobile App Testing • Learning from Change: Predictive Models for Incident Prevention in a Regulated IT Environment
编程语言、形式方法与可验证性
• Persistent Iterators with Value Semantics • Weighted NetKAT: A Programming Language For Quantitative Network Verification • On the Decidability of Verification under Release/Acquire • Cerisier: A Program Logic for Attestation in a Capability Machine • Erlang Binary and Source Code Obfuscation • Characterizing normality via automata and random matrix products • Polyregular equivalence is undecidable in higher-order types
软件协作、供应链与演化治理
• Analysis of Commit Signing on Github • A Universal Textual Merge Strategy Based on Tokens for Version Control Systems • Towards Enabling An Artificial Self-Construction Software Life-cycle via Autopoietic Architectures
系统架构、运行时与自治基础设施
• Self-adaptive Multi-Access Edge Architectures: A Robotics Case • Don't Let AI Agents YOLO Your Files: Shifting Information and Control to Filesystems for Agent Safety and Autonomy • From Brain Models to Executable Digital Twins: Execution Semantics and Neuro-Neuromorphic Systems
研究方向:生成式 AI、编码智能体与人机协同
Large Language Models to Enhance Business Process Modeling: Past, Present, and Future Trends
• 作者:João Bettencourt, Sérgio Guerreiro • arXiv URL:https://arxiv.org/abs/2604.14034v1
Abstract
近年来,生成式人工智能,尤其是大语言模型(LLM)的进展,激发了利用自然语言自动化或辅助业务流程建模任务的广泛兴趣。已有多种方法被提出,用于将文本化流程描述转换为 BPMN 及相关工作流模型。然而,这些方法在组织场景中究竟能在多大程度上有效支持复杂流程建模,仍不清楚。本文对利用 AI 驱动方法将自然语言转换为 BPMN 流程模型的研究进行了文献综述,重点关注 LLM 所扮演的角色。作者遵循结构化综述策略,对相关研究进行了识别与分析,以分类现有方法、考察 LLM 如何被集成进文本到模型流水线,并研究用于评估生成模型的实践。分析表明,相关方法正明显从基于规则和传统 NLP 的流水线,转向依赖提示工程、中间表示与迭代细化机制的 LLM 架构。尽管这些方法显著扩展了自动化流程模型生成的能力,现有文献仍暴露出语义正确性、评估碎片化、可复现性以及真实组织环境验证不足等持续存在的挑战。基于这些发现,本文识别出关键研究空白,并讨论了未来研究的有前景方向,包括通过检索增强生成(RAG)引入上下文知识、其与 LLM 的进一步整合、交互式建模架构的发展,以及更全面且标准化评估框架的需求。
Learned or Memorized ? Quantifying Memorization Advantage in Code LLMs
• 作者:Djiré Albérick Euraste, Kaboré Abdoul Kader, Jordan Samhi, Earl T. Barr, Jacques Klein, Tegawendé F. Bissyandé • arXiv URL:https://arxiv.org/abs/2604.13997v1
Abstract
由于缺乏关于训练大语言模型(LLM)所用代码数据集的透明信息,研究者很难检测、评估并缓解数据泄漏问题。本文提出一种基于扰动的方法,用于量化代码 LLM 的“记忆优势”,即模型在可能见过的输入与未见过的输入之间的性能差距。作者在 19 个基准、4 类任务上评估了 8 个开源代码 LLM,这 4 类任务分别为代码生成、代码理解、漏洞检测和缺陷修复。结果显示,不同模型和任务的敏感性模式差异很大。例如,StarCoder 在某些基准上表现出较高敏感性(最高可达 0.8),而 QwenCoder 通常较低(大多低于 0.4),这表明它们在泛化行为上存在差异。不同任务类别也呈现差异:代码摘要通常敏感性较低,而测试生成则明显更高。作者进一步分析了两个经常被怀疑存在泄漏的基准 CVEFixes 和 Defects4J。与常见担忧相反,这两个数据集在各模型上的记忆优势都较低:CVEFixes 始终低于 0.1,而 Defects4J 甚至低于其他程序修复基准。上述结果表明,对于这两个数据集,模型可能更多依赖学习到的泛化能力,而不是直接记忆。总体而言,本文提供了记忆风险高度依赖任务和模型的证据,并强调,尤其在安全相关场景下,需要更强的评估协议。
Towards Personalizing Secure Programming Education with LLM-Injected Vulnerabilities
• 作者:Matthew Frazier, Kostadin Damevski • arXiv URL:https://arxiv.org/abs/2604.13955v1
Abstract
根据建构主义理论,当示例建立在学生自身代码的基础上时,学生能够更有效地学习软件安全。通用示例往往难以与学生先前完成的工作建立联系,从而限制了参与感和理解程度。随着 LLM 的进步,研究者如今有可能通过将安全漏洞直接嵌入学生本人撰写的代码中,自动生成个性化示例。本文提出一种方法,利用 LLM 将特定的通用弱点枚举(CWE)实例注入学生自己的作业代码,以生成个体化教学材料。作者提出了一个基于自主 LLM 智能体的框架,这些智能体配备任务特定工具,用于编排漏洞注入、评估、排序以及学习结果生成。论文报告了该系统在两门本科计算机课程中的部署经验(N=71):学生审阅了含有 LLM 注入漏洞的代码样本,并完成了项目后问卷;作者还将结果与采用广泛使用的通用安全教学材料的基线进行了比较。学生在定性反馈中认为,将 CWE 注入自己代码中的示例比教材式例子更相关、更清晰,也更有吸引力。然而,定量结果中统计显著差异较为有限,这表明,尽管学生认可个性化方式,其有效性仍需通过进一步研究和方法改进来获得更强实证支持。
CollabCoder: Plan-Code Co-Evolution via Collaborative Decision-Making for Efficient Code Generation
• 作者:Duy Tung Doan, Quang Huy Phung, Dzung Nguyen, Khac-Hoai Nam Bui • arXiv URL:https://arxiv.org/abs/2604.13946v1
Abstract
自动代码生成仍然是软件工程中的长期挑战,因为传统多智能体框架往往受限于静态规划、执行孤立、计算开销高以及对复杂任务适应性不足。本文提出 CollabCoder,这是一种新的“计划-代码协同演化”框架,通过动态多智能体协作来提升代码生成质量。其核心思想是设计计划模块与代码模块之间的协同决策过程,以决定调试阶段应执行哪一个模块。大量实验表明,CollabCoder 在广泛使用的基准上能够稳定提升生成代码的质量与鲁棒性。值得注意的是,CollabCoder 在降低计算开销的同时,达到了与当前最先进方法相当甚至更优的性能,而且随着基准难度提升,其效率优势更加明显。在更具挑战性的 LiveCodeBench 和 xCodeEval 基准上,该方法相对强基线提升了 11% 到 20% 的性能,同时每次执行平均减少 4 到 10 次 API 调用。
On the Effectiveness of Context Compression for Repository-Level Tasks: An Empirical Investigation
• 作者:Jia Feng, Zhanyue Qin, Cuiyun Gao, Ruiqi Wang, Chaozheng Wang, Yingwei Ma, Xiaoyuan Xie • arXiv URL:https://arxiv.org/abs/2604.13725v1
Abstract
仓库级代码智能任务要求大语言模型(LLM)处理长上下文与多文件输入。这类输入带来三个挑战:关键上下文可能被噪声淹没、因上下文窗口限制而被截断,以及推理延迟上升。上下文压缩通过压缩输入来缓解这些风险。尽管该问题在 NLP 中已有研究,其在代码任务中的适用性却基本未被系统探索。本文给出了首个面向仓库级代码智能的上下文压缩系统性实证研究,将 8 种方法组织为 3 类范式:离散 token 序列、连续潜向量和视觉 token。作者在代码补全和代码生成任务上对这些方法进行了评估,同时测量性能与效率。结果表明,上下文压缩是有效的:在 4 倍压缩率下,连续潜向量方法在 BLEU 分数上最高可超过完整上下文 28.3%,说明它们并非只是截断输入,而是在主动过滤噪声。在效率方面,所有范式都降低了推理成本;视觉压缩与文本压缩都能在高压缩比下把端到端延迟最多降低 50%,其成本接近完全不使用仓库上下文时的推理成本。这些发现确立了上下文压缩作为一种可行路径的地位,并为范式选择提供了经验依据。
Figma2Code: Automating Multimodal Design to Code in the Wild
• 作者:Yi Gui, Jiawan Zhang, Yina Wang, Tianran Ma, Yao Wan, Shilin He, Dongping Chen, Zhou Zhao, Wenbin Jiang, Xuanhua Shi, Hai Jin, Philip S Yu • arXiv URL:https://arxiv.org/abs/2604.13648v1
Abstract
前端开发构成了软件工程中的重要部分,但将设计稿转换为可投入生产的用户界面(UI)代码,仍然是繁琐且成本高昂的工作。近期研究已尝试利用多模态大语言模型(MLLM)自动完成这一过程,但现有方法通常仅依赖设计图像,因此必须仅凭图像推断复杂 UI 细节,常导致结果退化。然而,在真实开发流程中,设计稿通常以 Figma 文件形式交付,这类文件嵌入了大量对于生成高质量 UI 至关重要的多模态信息,例如元数据和设计资产。为弥合这一差距,本文提出 Figma2Code 任务,将 design-to-code 从单纯图像设置推进到多模态环境,目标是在真实场景中自动完成 design-to-code。作者从 Figma 社区收集了配对的设计图像及其对应元数据文件,并经过一系列处理流程,包括基于规则的过滤、人工与 MLLM 结合的标注和筛选,以及元数据细化,最终得到 3,055 个样本,并由设计师从中筛选出一个包含 213 个高质量案例的平衡数据集。基于该数据集,作者评测了 10 个当前最先进的开源和闭源 MLLM。结果显示,尽管闭源模型在视觉保真度上更强,但在布局响应性和代码可维护性方面仍受限。跨模态实验与消融研究进一步证实了这一局限,其中一个原因在于模型倾向于直接映射 Figma 元数据中的原始视觉属性。
The Cognitive Circuit Breaker: A Systems Engineering Framework for Intrinsic AI Reliability
• 作者:Jonathan Pan • arXiv URL:https://arxiv.org/abs/2604.13417v1
Abstract
随着大语言模型(LLM)日益部署在任务关键型软件系统中,检测幻觉以及“伪装的真实感”已成为重要工程挑战。当前可靠性架构高度依赖生成之后的黑盒机制,例如检索增强生成(RAG)交叉核验或由 LLM 担任评审器的评估器。这些外在方法引入了不可接受的时延、高计算开销以及对外部二级 API 调用的依赖,常常违背标准软件工程服务等级协议(SLA)。本文提出 Cognitive Circuit Breaker,这是一种新的系统工程框架,可在极小延迟开销下提供内在可靠性监测。通过在模型前向传播过程中提取隐藏状态,作者计算“认知失调增量”(Cognitive Dissonance Delta),即 LLM 外显语义置信度(softmax 概率)与其内部潜在确定性(通过线性探针导出)之间的数学差距。实验表明,该框架能够以统计显著的方式检测认知失调,揭示与体系结构相关的分布外(OOD)泛化差异,并显示其对主动推理流水线只带来可忽略不计的计算开销。
AI Coding Agents Need Better Compiler Remarks
• 作者:Akash Deo, Simone Campanoni, Tommy McMichen • arXiv URL:https://arxiv.org/abs/2604.13927v1
Abstract
现代 AI 编码智能体通过重构源代码以触发可信编译器变换,从而优化程序。这种方式能够保持程序语义并减少源代码污染,使程序更易维护且可在不同架构间移植。然而,这种协同工作流受到传统编译器接口的限制,因为编译器将分析结果隐藏在非结构化、信息有损的优化备注中,这些备注原本是为人类直觉而非机器逻辑设计的。本文基于 TSVC 基准评估了现有优化反馈的有效性。结果发现,精确的备注能提供可操作反馈,使成功率提升到 3.3 倍;而模糊备注则会产生明显负面作用,诱发破坏语义的幻觉。通过将模糊备注替换为精确备注,作者表明,结构化且精确的分析信息能够真正释放小模型的能力,说明瓶颈在于接口,而不在于智能体本身。论文据此认为,未来编译器必须暴露面向自主性能工程时代的、结构化且可执行的反馈信息。
研究方向:软件测试、诊断与质量保障
Log-based vs Graph-based Approaches to Fault Diagnosis
• 作者:Mathis Nguyen, Mohamed Ali Lajnef • arXiv URL:https://arxiv.org/abs/2604.14019v1
Abstract
现代分布式系统会产生海量日志,这些日志可用于支持故障诊断等关键 AIOps 任务,而故障诊断对维持系统可靠性至关重要。现有多数方法依赖基于日志的模型,将日志视作线性事件序列。然而,这类表示会丢弃执行日志中常见的事件结构上下文,例如父子依赖、扇出分支或时间特征。为更好刻画这些关系,近期图神经网络(GNN)工作提出将日志表示为图可能是一种有前景的替代方案。基于这一观察,本文系统比较了用于自动故障诊断的日志编码器架构(如 BERT)与图模型(如 GNN)。作者在以追踪为导向的日志数据集 TraceBench 以及更传统的系统日志数据集 BGL 上进行了评估,覆盖异常检测与故障类型分类两类任务。结果显示,纯图模型并未优于编码器基线;但若将日志编码器学习到的表示进一步融入图模型,则可取得整体最强表现。这些结果揭示了图增强架构相较于传统日志方法真正占优的条件。
Sentiment analysis for software engineering: How far can zero-shot learning (ZSL) go?
• 作者:Reem Alfayez, Manal Binkhonain • arXiv URL:https://arxiv.org/abs/2604.13826v1
Abstract
软件工程中的情感分析旨在理解软件制品中表达的情绪。既有研究表明,通用现成情感分析工具在软件工程领域存在明显局限,并指出需要针对不同软件工程场景开发专门工具。而这类工具的开发又高度依赖监督学习,需要带标注的数据集;获取此类数据集成本很高,因为它需要领域知识和大量人工投入。本文探讨零样本学习(ZSL)是否能够缓解软件工程情感分析中标注数据稀缺的问题。作者开展了一项实证实验,评估多种 ZSL 技术的性能,包括基于嵌入、基于自然语言推理(NLI)、基于 TARS 和基于生成模型的 ZSL 方法;同时在不同标签设置下评估其表现,以考察标签配置的影响。此外,作者还将 ZSL 方法与当前最先进的微调 Transformer 模型进行了比较,并开展错误分析以识别误分类的主要原因。结果显示,尤其当 ZSL 技术结合专家设计标签,并采用基于嵌入或生成式模型时,其宏平均 F1 分数可与微调 Transformer 模型相当。错误分析表明,标注主观性和“极性事实”是 ZSL 误分类的主要来源。总体上,本文证明了 ZSL 在软件工程情感分析中的潜力,说明它有望通过降低对标注数据集的依赖,缓解数据稀缺问题。
Zero-shot Evaluation of Deep Learning for Java Code Clone Detection
• 作者:Thomas S. Heinze • arXiv URL:https://arxiv.org/abs/2604.13783v1
Abstract
深度学习(DL)在代码克隆检测中越来越普及,其动机在于追求接近完美的检测性能。尤其对于语义克隆,即语法相似度有限但实现了相同或相近功能的代码片段,深度学习似乎优于传统工具。本文希望考察基于深度学习的 Java 克隆检测器的泛化能力。为此,作者复现并评估了 5 种当前最先进的深度学习克隆检测器,包括 CodeBERT 等 Transformer 模型以及 FA-AST+GMN 等单任务模型,并在零样本评估设置下进行测试:模型在不同数据集和不同功能上训练或微调,再在另一组数据上评估。实验结果表明,这些模型对未见代码的泛化能力有限。进一步分析发现,在这种零样本评估场景中,传统克隆检测器 NiCad 甚至优于这些深度学习克隆检测器。
Debugging Performance Issues in WebAssembly Runtimes via Mutation-based Inference
• 作者:Ruiying Zeng, Shuyao Jiang, Wenxuan Zhao, Yangfan Zhou • arXiv URL:https://arxiv.org/abs/2604.13693v1
Abstract
对 WebAssembly(Wasm)运行时中的性能问题进行调试,对于保证 Wasm 的稳健性至关重要,因为这类性能问题频繁出现在 Wasm 运行时中,并可能显著削弱所承载服务的能力。许多 Wasm 运行时中的性能问题来自对输入 Wasm 程序的不理想编译,而现有主要面向应用级低效问题的性能调试方法并不适用于此。本文提出 WarpL,这是一种新的基于变异推断的方法,目标是识别导致 Wasm 运行时性能问题的具体次优指令序列,从而缩小根因定位范围。具体而言,WarpL 首先构造一个在功能上相似、但性能问题不再出现的变异程序;随后,通过比较原程序和变异程序生成的机器码,隔离出精确的次优指令。作者将 WarpL 实现为开源工具,并在 3 个广泛使用的 Wasm 运行时中的 12 个真实性能问题上进行了评估。WarpL 在其中 10 个问题上找到了精确原因。更值得注意的是,作者利用 WarpL 还成功诊断出 Wasmtime 中 6 个此前未知的性能问题。
V2E: Validating Smart Contract Vulnerabilities through Profit-driven Exploit Generation and Execution
• 作者:Jingwen Zhang, Yuhong Nan, Kaiwen Ning, Mingxi Ye, Wei Li, Yuming Xiao, Yuming Feng, Weizhe Zhang, Zibin Zheng • arXiv URL:https://arxiv.org/abs/2604.13611v1
Abstract
智能合约是区块链系统中的关键组成部分。由于智能合约承载大量数字资产,其安全性尤为重要。尽管已有大量工具用于检测智能合约漏洞,但其效果仍受限制,尤其是报告结果中存在较高误报率,导致开发者和审计人员常常不堪重负,需要手工验证报告问题。其根本原因在于:一个被报告的问题即便满足某类漏洞模式,也未必真正可利用,因为漏洞代码可能无法被触发,或者即使触发也不会造成任何经济损失。本文提出 V2E,一个用于验证已报告漏洞是否真正可利用的新框架。V2E 的核心思想是自动生成可执行的概念验证攻击(PoC),并通过该 PoC 评估漏洞是否既能被触发,又会造成真实损害,即经济损失。尽管 LLM 已展示出生成 PoC 的潜力,但完成该任务并不容易:模型既要生成并更新能触发特定漏洞的 PoC,也要评估 PoC 的有效性以确认漏洞可利用性。为此,V2E 将 PoC 生成、验证和细化结合为一体化流程:(1)分析潜在漏洞路径并生成目标化 PoC;(2)通过可触发性与获利性分析验证 PoC 有效性;(3)依据 PoC 执行反馈迭代细化 PoC,以提高确认漏洞的机会。在 264 个人工标注合约上的评估表明,V2E 优于基线方法。
WebMAC: A Multi-Agent Collaborative Framework for Scenario Testing of Web Systems
• 作者:Zhenyu Wan, Gong Chen, Qing Huang, Xiaoyuan Xie • arXiv URL:https://arxiv.org/abs/2604.13559v1
Abstract
场景测试是发现 Web 系统错误的重要技术。测试人员通常先撰写测试场景,再将其转换为测试脚本执行。早期方法需要测试人员手工完成从场景到脚本的转换;近期基于 LLM 的场景测试方法则可从自然语言描述中生成测试脚本。但这些方法不仅受限于描述本身的不完整,还忽视了测试充分性准则,因此难以发现潜在错误。为解决这些问题,本文提出 WebMAC,这是一个用于 Web 系统场景测试的多智能体协作框架。WebMAC 能通过交互式澄清补全自然语言测试场景描述,并利用等价类划分将其转化为充分的、实例化的测试场景。WebMAC 包含 3 个多智能体模块,分别负责补全测试场景自然语言描述、转换测试场景以及生成测试脚本。作者在 4 个 Web 系统上进行了评估。与当前最先进方法相比,WebMAC 将生成测试脚本的执行成功率提升了 30% 到 60%,将测试效率提高了 29%,并减少了 47.6% 的 token 消耗;同时,它还能更有效地发现 Web 系统中的更多错误。
TORAI: Unsupervised Fine-grained RCA using Multi-Source Telemetry Data
• 作者:Luan Pham, Huong Ha, Xiuzhen Zhang, Hongyu Zhang • arXiv URL:https://arxiv.org/abs/2604.13522v1
Abstract
现有多源根因分析(RCA)方法通常假设微服务系统中的所有服务都有追踪信息,从而可以构建服务调用图。然而,这一假设在实际中并不成立,因为微服务系统演化迅速,可能包含没有追踪的黑盒服务,例如编译后的软件或不受支持的服务。作者将这些服务称为“盲区”。在存在盲区时,现有多源 RCA 方法可能受到影响,因为它们只能在调用图上诊断可见服务。为克服这一局限,本文提出 TORAI,这是一种新的无监督方法,无需依赖服务调用图,也能有效定位细粒度根因。TORAI 首先利用可用的多源遥测数据度量异常严重程度;然后根据严重性症状对服务进行聚类,并在每个严重性簇内开展因果分析以对服务排序;最后聚合各簇排序结果,并利用假设检验识别细粒度根因。TORAI 因而提供了一种无需构建服务调用图或采取额外侵入式操作、仅利用现有多源遥测数据进行 RCA 的无监督方法,从而弥补了现有方法的不足。作者在 3 个基准系统上的实验表明,在存在盲区的情况下,TORAI 显著优于当前最先进基线;真实故障上的评估进一步显示,TORAI 能准确地在前三推荐中定位根因。
From Exploration to Specification: LLM-Based Property Generation for Mobile App Testing
• 作者:Yiheng Xiong, Shiwen Song, Bo Ma, Ting Su, Xiaofei Xie • arXiv URL:https://arxiv.org/abs/2604.13463v1
Abstract
移动应用常常存在不会导致崩溃、而是在特定用户交互下表现为错误行为的功能缺陷。由于这类缺陷往往缺乏显式测试预言机,因此难以自动检测。基于性质的测试可以通过在多样交互下验证预期行为性质,有效暴露此类缺陷;但其使用通常依赖人工编写性质,这既困难又昂贵,限制了它在移动应用中的实际应用。为解决这一问题,本文提出 PropGen,这是一种面向 Android 应用的自动性质生成方法。不过,该任务具有两方面挑战:应用功能往往难以被系统性发现和执行,而性质也难以从观察到的行为中被准确推导。对此,PropGen 通过功能引导式探索收集应用执行中的行为证据,从所收集证据中合成性质,并依据测试反馈对不精确性质进行细化。作者实现了 PropGen,并在 12 个真实 Android 应用上进行了评估。结果表明,PropGen 能有效识别并执行有效应用功能、生成有效性质,并修复多数不精确性质。在全部应用上,PropGen 识别出了 1,210 个有效功能,并正确执行其中 977 个,而基线仅分别为 491 和 187;它共生成 985 个性质,其中 912 个有效,并修复了测试中暴露出的 127 个不精确性质中的 118 个。借助这些性质,作者在受测应用最新版本中发现了 25 个此前未知的功能缺陷,其中许多被现有功能测试技术遗漏。
Learning from Change: Predictive Models for Incident Prevention in a Regulated IT Environment
• 作者:Eileen Kapel, Jan Lennartz, Luis Cruz, Diomidis Spinellis, Arie van Deursen • arXiv URL:https://arxiv.org/abs/2604.13462v1
Abstract
对于依赖软件和服务的企业而言,有效的 IT 变更管理十分重要,尤其是在金融等高度监管行业中,运行可靠性、可审计性与可解释性都至关重要。相当一部分 IT 事故由变更引发,因此在部署前识别高风险变更具有重要价值。本文介绍了一种用于大型国际银行的事故风险预测评分方法。该方法通过预测变更诱发事故的可能性,辅助工程师在变更部署的评估和规划阶段进行决策。为了满足监管约束,作者在构建模型时特别强调可审计性与可解释性,并使用 SHAP 值提供特征级解释,以确保决策过程可追踪、透明。基于一年的真实数据,作者比较了现有基于规则的流程与 3 个机器学习模型:HGBC、LightGBM 和 XGBoost。结果显示,LightGBM 表现最佳,尤其是在引入反映组织上下文的团队聚合指标后效果更好。总体结果说明,数据驱动且可解释的模型能够在满足合规要求的同时优于基于规则的方法,从而支持主动风险缓解和更可靠的 IT 运维。
研究方向:编程语言、形式方法与可验证性
Persistent Iterators with Value Semantics
• 作者:Yihe Li, Gregory J. Duck • arXiv URL:https://arxiv.org/abs/2604.14072v1
Abstract
迭代器是主流命令式语言(如 C)中用于遍历和修改容器元素的基础编程抽象。它通过统一的访问机制隐藏底层数据结构的实现细节。然而,可变容器上的迭代器存在众所周知的问题,包括失效、别名、数据竞争和隐蔽副作用。函数式语言中使用的不可变数据结构能够规避可变性带来的这些问题,但其所依赖的编程模型与迭代器风格差异很大,更依赖递归和高阶组合子而非迭代;同时,这些组合子并不总适合表达某些算法,而递归还可能暴露底层数据结构实现细节。本文提出持久迭代器(persistent iterators),一种将命令式语言中熟悉的迭代器编程风格与持久化数据结构语义结合起来的新抽象。持久迭代器在创建时会快照其底层容器版本,从而保证不受失效和别名问题影响。迭代器操作只作用于迭代器本地的容器副本,因此具备真正的值语义:变量可以被重新绑定到新的持久值,而旧版本仍可访问。作者以 LibFPP 的形式实现了这一方法,它是一个 C 容器库,为向量、映射、集合、字符串等提供了标准模板库(STL)对应物的持久版本。评估结果表明,LibFPP 保留了基于迭代器编程的表达能力,消除了迭代器失效问题,并实现了与 STL 实现相当的渐近复杂度。该设计适用于既需要持久性和安全性、又希望保留熟悉迭代器编程模式的场景。
Weighted NetKAT: A Programming Language For Quantitative Network Verification
• 作者:Emmanuel Suárez Acevedo, Tiago Ferreira, Kevin Batz, Oliver Bøving, Nate Foster, Alexandra Silva • arXiv URL:https://arxiv.org/abs/2604.13987v1
Abstract
本文提出 weighted NetKAT,这是一种用于建模与验证定量网络性质的领域特定语言。该语言以半环为参数,从而能够以统一方式处理广泛的量化对象。作者给出了其指称语义以及与之等价的操作语义;后者基于一种新的 weighted NetKAT 自动机模型(WNKA),该模型刻画了该语言的有状态行为。借助 WNKA,作者获得了一类通用判定过程,可在存在可能无界迭代的情况下,仍以完全自动化方式推理定量安全性和可达性。论文进一步通过以 Internet2 的 Abilene 网络为底层拓扑的案例研究,展示了该框架的适用性。
On the Decidability of Verification under Release/Acquire
• 作者:Giovanna Kobus Conrado, Andreas Pavlogiannis • arXiv URL:https://arxiv.org/abs/2604.13683v1
Abstract
在弱内存模型下验证并发程序,是一个快速发展的研究方向,因为弱内存正在并发软件与硬件中被越来越广泛采用。Release/Acquire 已成为高性能并发编程的标准模型,被主流编程语言和计算机体系结构采用。令人意外的是,Abdulla 等人在 PLDI 2019 中证明:当程序可访问原子读-改-写(RMW)操作时,该模型下的可达性问题是不可判定的。更进一步地,即便将执行限制为仅 4 个上下文,这一不可判定性仍然成立,因此不受基于上下文切换有界性的欠近似技术影响。而不含 RMW 的规范情形则被保留下来,成为一个具有挑战性的开放问题;此前的工作仅证明了非原始递归下界。本文解决了这一持续 7 年的开放问题,证明即使在不含 RMW 的 Release/Acquire 片段中,可达性仍然是不可判定的,从而刻画了导致不可判定性的最简单通信原语集合。作者进一步证明,同时限制上下文切换数和 RMW 数量可以恢复可判定性,由此完整刻画了在 RMW 有界与上下文有界两个维度上的可判定性边界。
Cerisier: A Program Logic for Attestation in a Capability Machine
• 作者:June Rousseau, Denis Carnier, Thomas Van Strydonck, Steven Keuchel, Dominique Devriese, Lars Birkedal • arXiv URL:https://arxiv.org/abs/2604.13638v1
Abstract
可信计算中的一个关键能力是远程或本地证明,即封装组件(enclave)能够向不信任它的其他组件证明其身份。要对使用该技术的软件进行推理,就必须跟踪成功证明之后信任关系如何演化。这个过程既关键又复杂,但现有形式化验证技术尚不支持对 enclave 及其客户端的证明过程进行模块化推理,也无法证明同时包含可信代码、不可信代码和已证明代码的系统的端到端性质。本文提出 Cerisier,这是首个面向可信、不可信和已证明代码进行模块化推理的程序逻辑,并在 Iris 分离逻辑和 Rocq 证明器中完成了完整机制化。作者形式化了近期提出的 CHERI-TrEE,该方案作为 Cerise capability machine 与程序逻辑的扩展,为 capability machine 增加了 enclave 原语。本文的程序逻辑包含一个面向不可信代码的通用契约,它同时捕获 capability 安全性与本地 enclave 证明。与 Cerise 类似,该通用契约用定义 capability 权限的逻辑关系来表述。作者通过 3 个可信计算代表性应用展示了 Cerisier,包括安全外包计算、双向证明以及一个建模的可信传感器组件,并证明了其端到端性质。
Erlang Binary and Source Code Obfuscation
• 作者:Gregory Morse, Tamás Kozsik • arXiv URL:https://arxiv.org/abs/2604.13675v1
Abstract
本文研究 Erlang 程序在源码、抽象语法树、BEAM 汇编以及 BEAM 字节码层面的混淆技术。作者关注的是那些能够增加逆向工程、反编译和重新编译难度,同时又仍然基于 Erlang 编译器、验证器、加载器与虚拟机真实行为的变换方式。论文系统归类了多个方向的技术,包括 opcode 级依赖技巧、基于 receive 的循环编码、不规则控制流构造、面向可变性的性能混淆,以及由动态模块加载实现的自修改代码。论文反复强调的主题是:BEAM 中有效的混淆往往不是源于任意破坏,而是源于利用 Erlang 高层语义与工具链和运行时所接受的低层执行模型之间的表征缝隙。
Characterizing normality via automata and random matrix products
• 作者:Laurent Bienvenu, Santiago Cifuentes, Hugo Gimbert • arXiv URL:https://arxiv.org/abs/2604.12457v1
Abstract
对于固定字母表 A,如果一个无限序列 X 满足:A 上任意长度相同的两个单词在 X 中出现的频率都相同,则称 X 为正规序列(normal)。一个经典结果将正规性与有限自动机关联起来:当且仅当所有可由有限确定自动机实现的赌博策略在试图根据前缀预测 X 的下一个符号时最终失去其全部资本时,序列 X 才是正规的。更精确地,Schnorr 与 Stimm 在 1972 年证明,除非自动机表示的是“从不下注”的赌徒,否则其资本会以指数速度趋近于零,而后一种情况下资本保持常数。本文证明,当考虑概率自动机时,也存在类似结果:当且仅当对任意可由概率有限自动机实现的赌博策略,赌徒面对 X 时其资本的期望值都以指数速度收敛到某个有限值,序列 X 才是正规的。为获得这一结果,作者证明了一个更一般的命题,它与由有限个非负矩阵集合 {M_a}{a∈A} 定义的鞅收敛有关。特别地,作者证明:当且仅当对于任意非负初始向量 v,范数 ||vM{X[1]} ... M_{X[n]}|| 都以指数速度收敛到某个有限值时,X 才是正规的。作者还区分了该序列可能呈现的 3 种不同性质,并证明:给定一个矩阵族,判定其属于哪一种情形是可判定的。
Polyregular equivalence is undecidable in higher-order types
• 作者:Mikołaj Bojańczyk, Grzegorz Fabiański, Rafał Stefański • arXiv URL:https://arxiv.org/abs/2604.11935v1
Abstract
对于字符串到字符串的 polyregular 函数,其等价性问题(f = g)是否可判定,目前仍是一个开放问题。本文考虑基于 Bojańczyk(2018)对 polyregular 函数所给出的 λ 演算定义的高阶扩展。在这一设置下,作者通过从铺砖问题进行归约,证明其等价性问题是不可判定的。
研究方向:软件协作、供应链与演化治理
Analysis of Commit Signing on Github
• 作者:Abubakar Sadiq Shittu, John Sadik, Farzin Gholamrezae, Scott Ruoti • arXiv URL:https://arxiv.org/abs/2604.14014v1
Abstract
提交签名被广泛宣传为软件供应链安全的基础,但既有研究往往从单个仓库或经过筛选的项目样本出发研究这一问题,因而忽略了开发者在整个生态平台上的真实行为。本文基于可复现性理论,将采样单位从仓库切换为开发者个体,对 71,694 名活跃 GitHub 用户进行了跟踪;这些用户被定义为至少提交过一次 commit 的账号。作者考察了这些用户横跨全部仓库和完整提交历史的行为,总计覆盖 1,600 万次提交和 874,198 个仓库。这种面向用户、覆盖全平台的视角揭示出仓库采样无法发现的根本性缺口:生态系统表面上的高签名采用率实际上是一种错觉。一旦排除由平台自动生成的签名,真正亲手签过 commit 的开发者不到 6%,且绝大多数表面上的签名者从未在浏览器环境之外本地签过名。在少数会本地签名的开发者中,签名行为也很少能在时间上持续,或跨仓库持续;而且大约八分之一由开发者管理的签名因密钥从未上传到 GitHub 而无法验证。考察密钥注册表后,作者还发现过期密钥几乎从未被吊销,并且超过四分之一的用户持有至少一个失效密钥。总体而言,这些发现表明,当前实践中的提交签名无法在生态系统尺度上充当可靠的来源证明信号,作者据此给出了缩小这一差距的具体建议。
A Universal Textual Merge Strategy Based on Tokens for Version Control Systems
• 作者:Qiqi Jason Gu, Mikoláš Janota • arXiv URL:https://arxiv.org/abs/2604.13813v1
Abstract
合并是 Git 等版本控制系统中的核心操作,但传统基于行的算法常会产生伪冲突,尤其是在重构或并行编辑场景下。尽管具备语法感知或语义感知的合并方法能够减少冲突,但它们往往带来新的缺点,例如格式丢失、依赖特定语言解析器,以及难以在异构制品之间灵活适用。为解决这一问题,本文提出 Summer,一种与文档格式无关的新型文本级 token 合并算法。该方法将文本划分为 token,把一个分支上的 token 级修改表示为字符串重写规则和移动规则,再将这些规则应用到另一个分支文本上,从而构造合并结果。尽管 Summer 不依赖编程语言,其移动规则仍能够建模函数提取与内联。作者在 ConflictBench 这一真实世界合并场景大型基准上,对 Summer 与 5 个代表性合并工具在 Java 与非 Java 文件上的表现进行了比较。实验结果表明,Summer 在复现与开发者结果逐字一致的合并时取得了最高的 36% 准确率,并在语义准确性上排名第二。
Towards Enabling An Artificial Self-Construction Software Life-cycle via Autopoietic Architectures
• 作者:Daniel Rodriguez-Cardenas, David Nader Palacio, Denys Poshyvanyk • arXiv URL:https://arxiv.org/abs/2604.13934v1
Abstract
软件工程研究长期致力于自动化维护与演化过程,以降低成本并提升可靠性。基础模型(FM)在代码理解与推理方面展现出的强大能力,为软件自治行为带来了新的可能。受人工生命(ALife)启发,本文提出应从根本上转变软件开发生命周期(SDLC),通过引入自构造机制,使软件能够自主演化和维护。作为一篇立场论文,本文探讨了“自创生架构”(Autopoietic Architectures),尤其是 Psi-Arch,作为自构造软件基础框架的潜力。作者首先分析了传统维护方法的局限,并识别出现有 SDLC 自动化中的缺口;随后概述了实现自构造所面临的核心挑战,包括整合基于基础模型的推理单元,以及建立新的架构范式。尽管本文并未给出一个最终解决方案,但其目标在于推动讨论,并激发对软件工程新范式的研究,即让自构造软件成为 SDLC 自动化的下一前沿。
研究方向:系统架构、运行时与自治基础设施
Self-adaptive Multi-Access Edge Architectures: A Robotics Case
• 作者:Mahyar T Moghaddam, Joakim Leed, Anders Frandsen • arXiv URL:https://arxiv.org/abs/2604.13542v1
Abstract
计算密集型 AI 任务的增长凸显出降低处理成本并提升性能与能效的需求。这要求在架构层面引入智能代理,作为自适应监督者,负责基础设施的弹性扩缩和跨连续体的高效计算卸载。本文针对人机混合环境中的高效计算系统,提出了一种自适应方法。所处理的计算任务与一种神经网络算法相关,该算法利用传感数据预测人的移动行为,以增强移动机器人的主动路径规划并保障人的安全。为提高神经网络处理效率,作者构建了一个由 Kubernetes 编排、包含异构处理单元的分布式边缘卸载系统。基于对响应时间和功耗的监测,该方法中的 MAPE-K 自适应监督者能够就扩缩容与任务卸载作出决策。实验结果显示,与传统方案相比,该方法在服务质量方面取得了显著改进,证明了其在 AI 驱动系统中的有效性。
Don't Let AI Agents YOLO Your Files: Shifting Information and Control to Filesystems for Agent Safety and Autonomy
• 作者:Shawn, Zhong, Junxuan Liao, Jing Liu, Mai Zheng, Andrea C. Arpaci-Dusseau, Remzi H. Arpaci-Dusseau • arXiv URL:https://arxiv.org/abs/2604.13536v1
Abstract
AI 编码智能体直接操作用户文件系统,而它们经常破坏数据、删除文件并泄露秘密。现有方法在安全性与自主性之间强制做出权衡:无限制访问会带来风险,而频繁的权限弹窗则加重用户负担并阻碍智能体执行。为理解这一问题,作者开展了首个关于智能体误用文件系统的系统研究,分析了来自 13 个框架的 290 份公开报告。分析表明,当今智能体既缺乏对其文件系统影响的充分信息,也缺乏足够的控制能力。因此,作者主张应将这种信息与控制转移到文件系统本身。基于这一原则,作者设计了 YoloFS,这是一种面向智能体原生的文件系统,包含 3 项技术。其一,staging 在提交前隔离所有修改,赋予用户纠正性控制;其二,snapshots 将这种控制延伸给智能体,使其能检测并修正自身错误;其三,progressive permission 通过最小交互方式对访问进行分级,从而向用户提供预防性控制。为评估 YoloFS,作者提出了一种新的方法学,用于捕捉用户、智能体与文件系统之间的交互。在 11 个带有隐藏副作用的任务上,YoloFS 使智能体在其中 8 个任务中能够自我纠错,同时保持所有效果都处于暂存且可审查状态;在 112 个日常任务上,YoloFS 在保持与基线相同成功率的同时,要求更少的用户交互。
From Brain Models to Executable Digital Twins: Execution Semantics and Neuro-Neuromorphic Systems
• 作者:Alexandre Muzy • arXiv URL:https://arxiv.org/abs/2604.13574v1
Abstract
脑数字孪生旨在提供关于大脑这一动力系统的忠实且个体化的计算表示,从而支持机制理解并帮助预测临床干预。然而,当前方法在数据流水线、模型类型、时间尺度和计算平台之间仍然高度割裂,这使得在端到端工作流中保持执行语义成为困难。本文提出“受物理约束的可执行性”这一统一视角,用于在执行层面比较不同方法:包括执行状态是否持久、哪些事件能够更新该状态(仿真、测量或执行控制),以及执行过程在时间和因果上与神经生物动力学耦合的强度。作者基于建模与仿真理论,提出了一套执行机制分类,从孤立的离线模型,到协调协同仿真、由在线数据同化持续维持执行的数字孪生,再到在共享物理约束下共同执行生物与计算动力学的神经-神经形态物理系统。作者认为,可执行性这一概念澄清了为何仅有精度不足以支撑脑数字孪生,并据此提出一个研究议程,围绕语义互操作性、混合时间正确性、评估协议、可扩展且可复现的工作流以及安全的闭环验证展开。整篇综述采用系统与运行时导向的视角,使得异构方法可按执行语义而非模型形式或应用领域进行比较。
夜雨聆风