软件工程论文速递 | 26.05.11 日报: 12篇新论文速递

• Learning Agent Routing From Early Experience
• FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows
• Tools as Continuous Flow for Evolving Agentic Reasoning
• MAGIQ: A Post-Quantum Multi-Agentic AI Governance System with Provable Security
• On Time, Within Budget: Constraint-Driven Online Resource Allocation for Agentic Workflows
• Efficient Serving for Dynamic Agent Workflows with Prediction-based KV-Cache Management

系统与形式化基础

• VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU
• KVerus: Scalable and Resilient Formal Verification Proof Generation for Rust Code

可靠性与不确定性评测

• Can LLMs Take Retrieved Information with a Grain of Salt?
• LLMs are not (consistently) Bayesian: Quantifying internal (in)consistencies of LLMs' probabilistic beliefs

控制与数据构造

• Learned Lyapunov Shielding for Adaptive Control
• Target-Aware Data Augmentation for SAT Prediction

代理路由、工作流与多代理编排

Learning Agent Routing From Early Experience

• 作者：Yimin Wang, Jiahao Qiu, Xuan Qi, Xinzhe Juan, Jingzhe Shi, Zelin Zhao, Hongru Wang, Shilong Liu, Mengdi Wang
• arXiv URL：https://arxiv.org/abs/2605.07180

Abstract

LLM 代理在复杂推理任务上表现出色，但代价是更高的延迟与算力开销。现实中，很多查询其实落在前沿大模型的能力边界之内，并不需要完整的代理执行，因此如何在 LLM 直接推理与完整代理执行之间进行有效路由，成为一个关键问题。我们研究在冷启动条件下，将查询在轻量 LLM 推理与完整代理执行之间路由的问题。为此，我们提出 BoundaryRouter，这是一个无需训练的路由框架，利用早期行为经验和 rubric 引导推理来判断某个查询应由 LLM 直接回答，还是应升级给代理处理。BoundaryRouter 通过在共享种子集上同时运行两种系统，构建紧凑的经验记忆，并在推理时检索相似案例以指导路由决策。为了评估这一方法，我们引入 RouteBench，这是一个覆盖域内、改写以及域外路由场景的基准。实验表明，与代理相比，BoundaryRouter 将推理时间降低了 60.6%，同时相较于直接 LLM 推理将性能提升了 28.6%；它在平均意义上分别比基于提示的路由和仅检索式路由高出 37.9% 和 8.2%。

FATE: Future-State-Aware Scheduling for Heterogeneous LLM Workflows

• 作者：Zirui Huang, Yi-Xiang Hu, Feng Wu, Xiangyang Li
• arXiv URL：https://arxiv.org/abs/2605.07238

Abstract

大型语言模型应用正越来越多地以异构的多阶段工作流形式执行，而不再只是孤立的推理调用。在这类工作流 DAG 中，调度决策不仅影响当前就绪阶段，还会影响下游阶段继承到的执行状态，包括模型驻留、父节点输出的局部性、前缀复用以及未来设备可达性。现有的服务和 DAG 调度策略大多只是单独优化当前队列状态、放置成本或复用信号，这会打散有用状态并增加端到端延迟。我们提出 FATE，一种面向异构 LLM 工作流的未来状态感知调度器。FATE 结合了基于 CP-SAT 的前沿规划器、面向未来的候选评分、受限的多设备分片执行，以及状态条件化的代价估计。它并不是一次性求解整个 DAG，而是围绕当前就绪前沿反复规划，并同时依据即时成本和其所诱发的下游状态对分配方案进行评分。在真实 DAG 与受控前缀复用基准上，FATE 的表现优于实用启发式、传统 DAG 调度以及近期工作流服务策略的代理实现。在真实 DAG 基准上，它的归一化完工时间和归一化 P95 延迟分别达到 0.675 和 0.677，相比 RoundRobin 分别下降 32.5% 和 32.3%，相比最强的非 FATE 基线分别下降 8.9% 和 8.8%。机制分析与消融实验表明，这些收益来自对多维未来执行状态的联合保持，而不仅仅是前缀复用本身。结果表明，未来状态保持应当成为异构 LLM 工作流服务中的一级调度目标。

Tools as Continuous Flow for Evolving Agentic Reasoning

• 作者：Tairan Huang, Siyu Shang, Qiang Chen, Xiu Su, Yi Chen
• arXiv URL：https://arxiv.org/abs/2605.07339

Abstract

LLM 已经展示出在推理任务中编排工具的强大能力。不过，现有方法仍依赖逐步式范式，缺乏全局视角，导致长程任务中的误差不断累积，并限制了它们向未见工具的泛化。为克服这些局限，我们提出 Tools as Continuous Flow for Evolving Agentic Reasoning（FlowAgent），把工具链重新表述为语义空间中的连续轨迹生成。为了系统评估这一范式，我们引入第一个面向动态真实环境中的计划级代理推理的闭环计划级基准。具体而言，FlowAgent 利用条件流匹配来生成连续潜在轨迹，从而提供全局规划视角，确保工具执行的一致性与鲁棒性。理论上，我们建立了关于效用收敛的形式化界，并证明这种连续化表述可以从根本上保证稳健泛化与误差衰减。实验表明，FlowAgent 在长程推理任务上具有更强的鲁棒性和适应性。

MAGIQ: A Post-Quantum Multi-Agentic AI Governance System with Provable Security

• 作者：Sepideh Avizeh, Tushin Mallick, Alina Oprea, Cristina Nita-Rotaru, Reihaneh Safavi-Naini
• arXiv URL：https://arxiv.org/abs/2605.06933

Abstract

我们的计算生态正被两个新兴范式重塑：一是代理式 AI 系统的更广泛部署，二是量子计算的进展。对于代理式 AI 系统而言，最关键的问题之一，是构建安全的治理架构，确保代理遵循其所有者的通信与交互策略，并且能够对其与其他代理交换的消息负责。对于量子计算而言，现有系统必须进行改造，同时还需要设计新的密码机制，以确保长期安全性和抗量子能力。事实上，NIST 建议从 2030 年起弃用标准公钥密码算法，包括 RSA、Diffie-Hellman（DH）和椭圆曲线构造（ECC），并在 2035 年后禁止使用。本文提出 MAGIQ，一个用于多代理 AI 系统中策略定义与强制执行的框架，它采用新颖、高效且具备安全证明的抗量子密码协议。MAGIQ 具备四项能力：(i) 允许用户为代理到代理会话和任务定义丰富的通信与访问控制策略预算，包括一对多代理会话的全局预算；(ii) 使用后量子密码原语强制执行这些策略；(iii) 支持对代理到代理以及一对多代理会话进行基于会话的策略执行；(iv) 通过消息归属为用户提供代理问责能力。我们在 Universal Composability（UC）框架下对系统进行形式化建模并证明其正确性与安全性。随后，我们评估了框架的计算与通信开销，并与最先进的代理式 AI 框架 SAGA 进行了比较。MAGIQ 是迈向后量子安全代理式 AI 系统的第一步。

On Time, Within Budget: Constraint-Driven Online Resource Allocation for Agentic Workflows

• 作者：Xinglin Wang, Zishen Liu, Shaoxiong Feng, Peiwen Yuan, Yiwei Li, Jiayi Shi, Yueqi Zhang, Chuyi Tan, Ji Zhang, Boyuan Pan, Yao Hu, Kan Li
• arXiv URL：https://arxiv.org/abs/2605.06110

Abstract

面向复杂用户请求的代理式系统，通常需要在一条具备依赖关系的工作流中协调多个模型和多次生成。给定每个子任务与模型组合的成功率和生成长度估计，执行器必须在多个可并行执行的子任务之间分配模型与采样预算，同时还要管理剩余的时间和成本预算。我们将这一场景形式化为一个有限时域的随机在线分配问题，并提出 Monte Carlo Portfolio Planning（MCPP），这是一种轻量级闭环规划器，它通过模拟工作流执行直接估计受约束的完成概率，并在观察到中间结果后重新规划。我们在 CodeFlow 和 ProofFlow 上进行实验，结果表明，MCPP 在各种预算-截止时间约束下都能稳定提升受约束完成概率，优于多个强基线。

Efficient Serving for Dynamic Agent Workflows with Prediction-based KV-Cache Management

• 作者：Haoyu Zheng, Fangcheng Fu, Jia Wu, Binhang Yuan, Yongqiang Zhang, Hao Wang, Yuanyuan Zhu, Xiao Yan, Jiawei Jiang
• arXiv URL：https://arxiv.org/abs/2605.06472

Abstract

基于 LLM 的工作流会组合多个专门代理来完成复杂任务，而这些代理通常共享大量上下文，因此可以通过 KV Cache 复用来节省计算。现有方法要么在代理层面管理 KV Cache，因此无法充分利用工作流内部的复用机会；要么在工作流层面管理缓存，但假设每个工作流总是调用一条静态的代理序列。然而，真实工作流通常是动态的：调用哪个代理、以及由此产生哪些缓存复用机会，会依赖于具体任务的上下文。为了高效服务这类动态工作流，我们构建了系统 PBKV（Prediction-Based KV-Cache Management）。PBKV 会融合历史工作流的指导信号与目标工作流的上下文，对未来若干步的代理调用进行预测。基于这些预测，PBKV 估计缓存条目的复用潜力，并将潜力高的条目保留在 GPU 内存中。为了对预测误差保持鲁棒，PBKV 在缓存驱逐和预取两个环节都保守使用这些预测。三套工作流基准上的实验表明，PBKV 在动态工作流上相较 LRU 最多可实现 1.85× 加速，相较静态工作流上的 SOTA 基线 KVFlow 最多可实现 1.26× 加速。

系统与形式化基础

VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU

• 作者：Yirui Wu, Haibin Lin, Zhenying He, Yuanhao Yang, Luning Zhou, Zhen Li, Zhiqiang Chen, Weichao Wang, Yiran Zhang, Yuhang Wang, Peng Liu, Hai Jin, Jiansong Zhang
• arXiv URL：https://arxiv.org/abs/2605.01352

Abstract

CUDA 与 Vulkan 提供了一组丰富且高效的能力，用于分别加速高性能计算与图形工作负载。尽管它们都支持在同一块 GPU 上执行，但由于各自管理 GPU 存储与资源的机制彼此独立，它们实际上是隔离的，因此使得共享底层物理位置的资源变得困难。本文提出 VUDA（Vulkan-CUDA Device Sharing Architecture），这是一个面向同一 GPU 上图形与计算共享空间的框架。VUDA 允许 CUDA 与 Vulkan 之间共享 GPU 地址空间中的缓冲区，从而使双方都能访问同一块物理内存。我们展示了若干空间共享的实际应用，包括在 Vulkan 和 CUDA 之间协作的镜像/复制路径、零拷贝中间结果传递，以及面向混合图形-计算管线的低开销资源复用。实验结果表明，VUDA 能够显著减少跨 API 复制和同步开销，在多个代表性工作负载上带来可观的吞吐提升与延迟降低。

KVerus: Scalable and Resilient Formal Verification Proof Generation for Rust Code

• 作者：Yizhang Qin, Yeyun Gong, Yuheng Huang, Xiaoyue Zhang, Ningyu Zhang, Qian Li, Xunliang Cai
• arXiv URL：https://arxiv.org/abs/2605.03822

Abstract

大语言模型在代码生成方面已经表现出色，但把这些能力迁移到 Rust 之类需要严格安全保证的语言时，仍然面临形式化验证层面的挑战。现有证明生成方法往往在规模、鲁棒性或可恢复性方面受限，因此难以适用于真实仓库中的长证明、复杂不变量和多轮修复。我们提出 KVerus，一个面向 Rust 代码的可扩展、具备韧性的形式化验证证明生成框架。KVerus 将证明生成拆分为多个阶段，把证明目标细化为可局部验证的子目标，并在失败时进行定向恢复，而不是整段重写。该框架结合了结构化上下文、局部搜索与渐进式修复，以提高复杂证明的完成率与稳定性。实验结果显示，KVerus 在多个 Rust 验证基准上显著提升了证明成功率，并且在长证明和多轮交互场景中比直接生成式基线更稳健。

可靠性与不确定性评测

Can LLMs Take Retrieved Information with a Grain of Salt?

• 作者：Behzad Shayegh, Mohamed Osama Ahmed, Fred Tung, Leo Feng
• arXiv URL：https://arxiv.org/abs/2605.06919

Abstract

大语言模型已经展示出令人印象深刻的检索增强能力。然而，一个关键但仍然缺乏研究的方面，是它们能否根据检索到的信息的确定性程度来适当调整回答。这个局限在医学和金融等高风险领域会产生真实后果。我们评估了 8 个 LLM 在上下文确定性服从性（context-certainty obedience）上的表现，衡量它们是否能够根据显式的上下文确定性调整回答。分析显示出系统性局限：LLM 在观察到不确定上下文后，难以回忆先验知识，会误解显式表达的确定性，并且对复杂上下文过度信任。为解决这些问题，我们提出一种交互策略，将先验提醒、确定性重新校准和上下文简化结合起来。该策略在不修改模型权重的情况下，平均将服从错误降低了 25%，说明交互设计在增强 LLM 可靠性方面是有效的。我们的贡献包括一个原则化的评估指标、关于 LLM 不确定性处理的实证洞见，以及一套可在不同 LLM 之间迁移的上下文确定性服从改进策略。

LLMs are not (consistently) Bayesian: Quantifying internal (in)consistencies of LLMs' probabilistic beliefs

• 作者：Chacha Chen, Matthew Jörke, Adam Goliński, Masha Fedzechkina, Guillermo Sapiro, Sinead Williamson, Nicholas Foti
• arXiv URL：https://arxiv.org/abs/2605.06915

Abstract

现代 AI 系统正被部署到医学、科学和法律等复杂领域，在这些场景中，不仅要给出正确答案，还要随着新证据的到来，对世界的不确定信念进行表示和更新。我们提出一种新的技术，把 LLM 视为信息处理规则，并利用信息处理鸿沟来研究 LLM 如何从证据中更新其概率信念时的内部一致性与不一致性。我们的大规模实验评估了多种将证据融入信念的方法。其中一些方法产生了（几乎）贝叶斯式更新，另一些则似乎采用了学习到的启发式规则。令人惊讶的是，这些非贝叶斯启发式更新在下游任务表现上往往优于精确的贝叶斯计算，表明 LLM 的世界概率模型并不总是设定良好。最后，我们展示了该度量如何为 LLM 驱动的推断系统提供诊断手段，以识别其中的问题。

控制与数据构造

Learned Lyapunov Shielding for Adaptive Control

• 作者：Giansalvo Cirrincione, Adriano Fagiolini
• arXiv URL：https://arxiv.org/abs/2605.06934

Abstract

自适应控制的一个核心目标，是在模型不确定的情况下仍然确保闭环系统安全并保持期望的稳定性能。本文提出 Learned Lyapunov Shielding，一种把结构化 Lyapunov 约束与学习型策略结合起来的安全自适应控制方法。我们从一个经典的 Slotine-Li 风格自适应控制器出发，并引入一个额外的学习组件，用于补偿未建模动态和性能缺口。为了让学习过程保持可证安全，我们通过一个带有结构化二次 Lyapunov 函数的屏蔽层，将学习策略限制在安全集合内；同时，控制器中的部分残差由受约束的 actor-critic 学习模块提供。我们在理论上给出了稳定性与安全性的保证，并在多个自适应控制任务上验证了方法的有效性。实验结果表明，该方法在保持闭环稳定的同时，能够更好地适应系统变化，并在性能与鲁棒性之间实现更优平衡。

Target-Aware Data Augmentation for SAT Prediction

• 作者：Eshed Gal, Uri Ascher, Eldad Haber
• arXiv URL：https://arxiv.org/abs/2605.06931

Abstract

基于学习的方法正在 NP-hard 问题上展现出越来越大的潜力，但它们的进展从根本上受到标注训练数据生成成本过高的限制。在布尔可满足性（SAT）等领域，标准流程依赖带求解器的标注管线，这种方式随问题规模增长而难以扩展，并限制了可用监督信号的数量。这个瓶颈阻碍了更广泛的目标，即利用机器学习去捕捉困难组合问题中的结构。本文提出一个面向 SAT 的目标感知、无求解器数据生成框架，它通过构造方式产生带有正确标签的 SAT 与 UNSAT 实例，从而消除了昂贵的求解器调用。我们的方法使生成实例与目标基准的结构性质对齐，因此合成数据可以有效服务于下游学习任务。

目录