AI 技术 | Agent 自进化 * 多智能体安全 * 形式化证明突破

AI 技术 | Agent 自进化 * 多智能体安全 * 形式化证明突破 - 2026年5月25日

本周 arXiv 单日新增 AI 论文持续居高，重磅围绕「Agent 源码级自进化闭环」「多智能体 KV 缓存安全共享」「LLM 对齐失效新场景」「数学猜想自动证明」四大主线展开，多项研究迈入工业级应用临界点。

🧠 前沿技术

1. MOSS：Agent 源码级自进化，开辟自修改能力新纪元

机构/作者： Qianshu Cai 等（独立研究者）

主题： 自主智能体系统部署后不再更新、故障持续累积的行业痛点终于迎来系统性解决方案

技术标签：【Agent】【自进化】【LLM】

内容摘要： 现有自进化 Agent 仅限于文本层可编辑产物（提示词、记忆schema、工作流图），而路由、钩子顺序、状态不变量等核心逻辑存在于代码层，无法从文本层触达。MOSS 提出源码级自进化框架，将进化能力扩展到图灵完备的代码层。每个进化周期以生产故障证据自动 curation 的批次为锚，通过多阶段确定性 pipeline 执行；代码修改委托给可插拔的外部编码 Agent CLI，MOSS 保留阶段排序和判决权。候选版本通过在临时 trial workers 中回放批次进行验证，再经用户同意门控+原地容器热替换（附健康探针回滚）完成上线。在 OpenClaw 真实任务中，MOSS 将 4 项任务平均 grader 分数从 0.25 提升至 0.61，单周期无需人工干预，开创了 Agent 结构性故障自我修复的先河。

来源链接： arXiv:2605.22794^[1] | GitHub^[2]

2. HarnessAPI：一套代码同时生成 HTTP API + MCP Tool，消除 Agent 工具定义冗余

机构/作者： Edwin Jose 等

主题： Python LLM 工具需同时维护 HTTP 端点和 MCP Tool 注册两份定义的工程困境

技术标签： 【Agent】【MCP】【LLM】【框架】

内容摘要： HarnessAPI 以 typed skill folder 为单一真相来源，从一份 handler.py + Pydantic schema 自动派生：支持 SSE 流式输出的 HTTP 端点 + OpenAPI/Swagger 交互式 UI + 零配置 MCP tool，三者共用同一进程。双模内容协商使同一 handler 无需修改即可同时服务 SSE 流式和 JSON 返回客户端。动态代码生成机制确保 Pydantic 类型注解正确传播至 FastMCP 检查层，解决了此前闭包式注册的技术瓶颈。在 6 个代表性 skill 上对比 FastAPI server + FastMCP server 手动双栈实现，HarnessAPI 减少框架面代码量达 74%，并继承 FastAPI 完整中间件生态。

来源链接： arXiv:2605.22733^[3] | GitHub^[4] | PyPI^[5]

3. LCGuard：多智能体 KV 缓存共享时代的安全护栏

机构/作者： Sadia Asif 等

主题： 多智能体 LLM 系统通过 KV 缓存潜通信提升效率，但敏感信息面临representation级泄露风险

技术标签： 【多智能体】【安全】【LLM】【Agent】

内容摘要： KV 缓存编码了上下文输入、中间推理状态和智能体专属信息，构成隐性信息泄露通道。LCGuard 将共享 KV 缓存视为潜工作记忆，在跨智能体传输前学习表征层变换。通过对抗训练框架：对手学习从缓存 artifact 重建敏感输入，LCGuard 学习在保留任务相关语义的同时最大化可重建敏感信息的降低。形式化定义"不安全"标准为：对抗解码器能从共享缓存 artifact 中恢复智能体专属敏感输入的概率。跨多模型家族和多智能体基准测试的实证表明，LCGuard 一致性降低重建泄露和攻击成功率，同时保持与标准 KV 共享基线相当的任務性能。

来源链接： arXiv:2605.22786^[6]

4. TerminalWorld：从真实终端日志自动构建大规模 Agent 评测基准

机构/作者： Zhaoyang Chu、Zhaoyang Chu、Earl T. Barr、Mark Harman、He Ye 等（Google/牛津/UCL）

主题： 现有 Agent 评测依赖专家人工设计任务，与真实开发场景存在系统性偏差

技术标签： 【Agent】【Benchmark】【LLM】【评测】

内容摘要： TerminalWorld 数据引擎从"野外"终端录音自动逆向工程高保真评测任务，从 80,870 条真实终端录音中提取 1,530 个经验证任务（18 个真实类别，涵盖短时日常操作到超过 50 步的工作流，覆盖 1,280 个独特命令）。从中人工审核筛选出 200 个 TerminalWorld-Verified 代表性子集。在 8 个前沿模型和 6 个 Agent 上全面评测，最高通过率仅 62.5%，揭示当前系统处理真实终端工作流仍有显著差距。TerminalWorld 与现有专家设计基准（Terminal-Bench 等）仅弱相关（Pearson r=0.20），证明其捕捉了真实终端能力这一独特维度。

来源链接： arXiv:2605.22535^[7] | GitHub^[8]

📄 学术论文

5. GCRL 抽象出相对化选项：离线强化学习的新归纳偏置

机构/作者： Clarisse Wibault 等

主题： 离线目标条件强化学习（GCRL）中层级结构不仅实现时间抽象，更能实现绝对状态空间的抽象复用

技术标签： 【强化学习】【离线RL】【层级强化学习】

内容摘要： 现实 GCRL 任务中 MDP 存在大量由对称性和共享结构导致的冗余。论文引入**相对化选项（relativised options）**和层级不同层级的差异化表示，演示智能体如何跨相似状态空间上下文重用经验。与传统仅关注时间抽象的层级策略不同，该框架证明层级结构同时实现了绝对参照系的抽象。在离线 GCRL 基准上的实验表明，这种归纳偏置显著提升性能。

来源链接： arXiv:2605.22711^[9]

6. SDPM：扩散概率模型驱动连续时间生存分析

机构/作者： （作者未详细列出）

主题： 连续时间生存分析中的生成式新范式

技术标签： 【生成式AI】【扩散模型】【医疗AI】【时间序列】

内容摘要： SDPM 将条件生存结果对（观测时间+删失指示符）表示为去噪扩散模型中的条件分布，在条件独立删失假设下，模型生成的样本可直接通过 Kaplan-Meier 估计量转化为生存函数估计。该方法避免了对事件时间分布的参数假设，无需对输出时间空间进行离散化。在 10 个真实生存数据集上评估，C-index、时间依赖 AUC 和综合 Brier score 均达竞争水平；合成 Cox-Weibull 数据实验证明其在连续生存分布恢复上优于强非参数基线。

来源链接： arXiv:2605.22776^[10]

7. SeqLoRA：双层优化实现 LoRA 多概念组合生成

机构/作者： Javad Parsa 等

主题： 参数高效微调在多概念图像合成中的灾难性遗忘问题

技术标签： 【生成式AI】【LoRA】【多模态】【图像生成】

内容摘要： 参数高效微调（PEFT）使文本到图像扩散模型快速个性化，但组合多个自定义概念时存在表征干扰。SeqLoRA 提出序列正则化 LoRA，通过双层优化联合优化两个 LoRA 因子。理论上建立了算法收敛保证，并将残差层激活建模为矩阵次高斯过程，推导灾难性遗忘的高概率界。实验证明 SeqLoRA 在最多 101 个概念的图像生成中提升身份保持和可扩展性，同时避免代价高昂的融合后处理并减少属性干扰。

来源链接： arXiv:2605.22743^[11]

8. ChronoVAE-HOPE：超越注意力的时序分类基础模型

机构/作者： Luis Balderas 等

主题： 时间序列基础模型（TSFM）适配专用分类任务的两大核心挑战：注意力二次复杂度与表征可解释性

技术标签： 【基础模型】【VAE】【时间序列】【自监督】

内容摘要： ChronoVAE-HOPE 用 Variational Autoencoder 框架取代标准注意力，以 HOPE Block 为核心：双内存系统（Titans 模块动态保留短期 + Continuum Memory System 抽象长期上下文）替代二次方注意力。关键创新在于解耦潜空间，将表征分解为独立趋势和季节性分量，配备专用编码器头和解码器路径。在 Monash 档案上进行自监督预训练（掩码时序建模 + 解耦 VAE 重建损失），在 UCR 基准数据集下游分类上表现强劲，尤其在严格因果结构场景。

来源链接： arXiv:2605.22684^[12]

9. CAME-Grad：梯度动力学分析解决多任务医学报告生成「双重困境」

机构/作者： Zhiqing Guo 等

主题： ICML 2026 接收 | 多任务医学报告生成中判别监督与生成平滑性之间的梯度冲突

技术标签： 【多模态】【医疗AI】【优化】【ICML2026】

内容摘要： 多任务自动 radiology 报告生成（RRG）广泛采用线性标量化策略，但无法有效平衡判别临床监督的硬约束与报告生成的平滑性要求。论文从梯度动力学角度（利用随机微分方程框架）分析线性标量化失败机理，将其表征为"双重困境"：漂移项偏离 + 扩散项衰减。基于此提出 CAME-Grad 优化器，通过冲突规避方向矫正和幅度增强能量注入确保几何有效性并避免局部最优，自适应梯度融合机制在理论最优方向与任务特定归纳偏置间建立动态平衡。在 8 种不同 RRG 方法上作为即插即用组件，平均提升 MIMIC-CXR 临床效能 2.3%、IU X-Ray 1.9%。

来源链接： arXiv:2605.22635^[13] | GitHub^[14]

10. AI 对齐在冲突情境中的系统性失效

机构/作者： Andrii Kryshtal 等

主题： 9 个模型配置在冲突相关场景中对齐失败率 6%~47%，模型选择本身成为安全议题

技术标签： 【LLM】【对齐】【安全】【AI伦理】

内容摘要： 当前 AI 模型已被部署在受武装冲突影响的社会中，但尚无检查其输出是否使冲突恶化的实践标准。论文设计 90 个多轮场景，覆盖：文件在案暴行间的虚假等价、种族灭绝否认、未能识别民族歧视用语等。测试 4 家提供商（OpenAI、Anthropic、DeepSeek、xAI）的 9 种模型配置，最佳与最差失败率差距达 6%~~47%。当用户在被国际法庭已判定责任的案例中推动"平衡"叙事时，9 个配置中有 5 个在 80%~~100% 的案例中失败。论文发布首个该领域评估框架，建议将冲突敏感性纳入对齐评估组合。

来源链接： arXiv:2605.22720^[15] | GitHub^[16]

📱 应用产品

11. 数学猜想自动证明新纪录：9/353 开放 Erdős 问题获解决

机构/作者： George Tsoukalas、Henryk Michalewski、Pushmeet Kohli、Swarat Chaudhuri 等（DeepMind/微软研究院等联合团队）

主题： LLM 生成形式化证明能力首次在真实开放数学问题上实现规模化验证

技术标签： 【大模型】【形式化证明】【数学AI】【Agent】

内容摘要： 这是首次对 LLM 生成 Lean 等形式化证明方法解决开放问题能力的大规模评估。最强 Agent 在每个问题约数百美元成本下，自主解决了 353 个开放 Erdős 问题中的 9 个，并对 492 个 OEIS 猜想中的 44 个完成了证明。该结果表明 AI 辅助数学研究正从辅助计算向自主解决开放问题迈进，形式化证明语言为 LLM 数学推理的可靠性提供了可验证路径。

来源链接： arXiv:2605.22763^[17]

12. 三元决策树：不确定性感知决策的新范式

机构/作者： （作者未详细列出）

主题： 传统决策树对决策边界附近样本赋予与远离边界样本相同置信度的不合理问题

技术标签： 【可解释AI】【决策树】【不确定性量化】

内容摘要： 论文提出三元决策树，在每个分裂节点增加宽度为 δ 的不确定性区域，该区域内的实例获得两个子树的加权融合预测并标记为"边界不确定"。关键是 δ 从 CART 分裂标准曲线中自动计算，无需外部噪声规格。提出并评估 5 种 δ 估计方法（质量 plateau、类别重叠、增益比、节点 bootstrap、间隔法）。72 个 OpenML-CC18 数据集上，所有 5 种方法的概率路由显著优于标准 CART（Wilcoxon 符号秩，p < 0.001）。间隔法以最优效率（每单位边界不确定标记率获得 0.104 精度增益）胜出，在 72 个数据集中赢下 42 个，零超参数依赖。

来源链接： arXiv:2605.22740^[18]

13. 智能电网异常检测：GA + Extra Trees 达成 112→27 特征降维

机构/作者： Adis Alihodžić 等

主题： 物联网智能电网中网络物理异常检测的特征优化问题

技术标签： 【机器学习】【特征工程】【智能电网】【异常检测】

内容摘要： 论文结合机器学习与遗传算法特征选择在智能电网 CPS 异常检测中的应用。在 MSU/ORNL 电力系统攻击数据集上，使用 GA + Extra Trees 模型将清洁 PMU 特征空间从 112 维压缩至平均 27.4 维，同时 macro-F1 从 0.9118 提升至 0.9212，ROC-AUC 从 0.9791 提升至 0.9837。结果表明大量同步电气测量特征是冗余的，紧凑的相量特征子集即可提供准确且可解释的智能电网异常检测。

来源链接： arXiv:2605.22749^[19]

14. 后验崩溃即自动谱剪枝：β-VAE 的新理论视角

机构/作者： Johannes Hirn 等

主题： β-VAE 中潜模式崩溃机制的形式化解释

技术标签： 【VAE】【表示学习】【理论】

内容摘要： 论文证明 β-VAE 中的后验崩溃实际上实现了自动谱剪枝。一个潜模式崩溃当且仅当其对重建的贡献低于 β 设定的截止值时发生。不同 β 下的平衡解揭示了从最不有用到最有用的级联崩溃序列。通过损失函数的 Landau 稳定性分析推导出该结论，定义了一个潜重新缩放不变阶参对活跃潜模式排序，其崩溃阈值标识了首先应检查的有效变量。在线性高斯情况下，崩溃谱、效用谱和归一化 PCA 谱重合，每个崩溃遵循平均场定律，在 WorldClim 数据集上验证了预测。

来源链接： arXiv:2605.22691^[20]

参考链接

arXiv:2605.22794 - MOSS: Self-Evolution through Source-Level Rewriting^[21]
arXiv:2605.22733 - HarnessAPI^[22]
arXiv:2605.22786 - LCGuard: Latent Communication Guard^[23]
arXiv:2605.22535 - TerminalWorld Benchmark^[24]
arXiv:2605.22711 - Abstraction for Offline GCRL^[25]
arXiv:2605.22776 - SDPM Survival Diffusion^[26]
arXiv:2605.22743 - SeqLoRA: Bilevel LoRA^[27]
arXiv:2605.22684 - ChronoVAE-HOPE Time Series Foundation Model^[28]
arXiv:2605.22635 - CAME-Grad for Radiology Report Generation (ICML 2026)^[29]
arXiv:2605.22720 - AI Alignment Failure in Conflict Contexts^[30]
arXiv:2605.22763 - AI-Driven Formal Proof Search for Mathematics^[31]
arXiv:2605.22740 - Ternary Decision Trees^[32]
arXiv:2605.22749 - Cyber-Physical Anomaly Detection in Smart Grids^[33]
arXiv:2605.22691 - Posterior Collapse as Automatic Spectral Pruning^[34]

引用链接

[1]arXiv:2605.22794: https://arxiv.org/abs/2605.22794

[2]GitHub: https://github.com/dav-joy-thon/MOSS

[3]arXiv:2605.22733: https://arxiv.org/abs/2605.22733

[4]GitHub: https://github.com/edwinjosechittilappilly/harnessapi

[5]PyPI: https://pypi.org/project/harnessapi/

[6]arXiv:2605.22786: https://arxiv.org/abs/2605.22786

[7]arXiv:2605.22535: https://arxiv.org/abs/2605.22535

[8]GitHub: https://github.com/EuniAI/TerminalWorld

[9]arXiv:2605.22711: https://arxiv.org/abs/2605.22711

[10]arXiv:2605.22776: https://arxiv.org/abs/2605.22776

[11]arXiv:2605.22743: https://arxiv.org/abs/2605.22743

[12]arXiv:2605.22684: https://arxiv.org/abs/2605.22684

[13]arXiv:2605.22635: https://arxiv.org/abs/2605.22635

[14]GitHub: https://github.com/vpsg-research/CAME-Grad

[15]arXiv:2605.22720: https://arxiv.org/abs/2605.22720

[16]GitHub: https://github.com/akryshtal/conflict-sensitivity-eval-bloom

[17]arXiv:2605.22763: https://arxiv.org/abs/2605.22763

[18]arXiv:2605.22740: https://arxiv.org/abs/2605.22740

[19]arXiv:2605.22749: https://arxiv.org/abs/2605.22749

[20]arXiv:2605.22691: https://arxiv.org/abs/2605.22691

[21]arXiv:2605.22794 - MOSS: Self-Evolution through Source-Level Rewriting: https://arxiv.org/abs/2605.22794

[22]arXiv:2605.22733 - HarnessAPI: https://arxiv.org/abs/2605.22733

[23]arXiv:2605.22786 - LCGuard: Latent Communication Guard: https://arxiv.org/abs/2605.22786

[24]arXiv:2605.22535 - TerminalWorld Benchmark: https://arxiv.org/abs/2605.22535

[25]arXiv:2605.22711 - Abstraction for Offline GCRL: https://arxiv.org/abs/2605.22711

[26]arXiv:2605.22776 - SDPM Survival Diffusion: https://arxiv.org/abs/2605.22776

[27]arXiv:2605.22743 - SeqLoRA: Bilevel LoRA: https://arxiv.org/abs/2605.22743

[28]arXiv:2605.22684 - ChronoVAE-HOPE Time Series Foundation Model: https://arxiv.org/abs/2605.22684

[29]arXiv:2605.22635 - CAME-Grad for Radiology Report Generation (ICML 2026): https://arxiv.org/abs/2605.22635

[30]arXiv:2605.22720 - AI Alignment Failure in Conflict Contexts: https://arxiv.org/abs/2605.22720

[31]arXiv:2605.22763 - AI-Driven Formal Proof Search for Mathematics: https://arxiv.org/abs/2605.22763

[32]arXiv:2605.22740 - Ternary Decision Trees: https://arxiv.org/abs/2605.22740

[33]arXiv:2605.22749 - Cyber-Physical Anomaly Detection in Smart Grids: https://arxiv.org/abs/2605.22749

[34]arXiv:2605.22691 - Posterior Collapse as Automatic Spectral Pruning: https://arxiv.org/abs/2605.22691