AI 技术 | Agent 技能-工具协同进化与多模型共识协议突破

AI 技术 | Agent 技能-工具协同进化与多模型共识协议突破 - 2026.06.03

本周 arXiv（6月1日新上）cs.AI 单日新增 173 篇、cs.LG 新增 289 篇，重磅围绕「Agent 技能-工具协同进化 Lotka-Volterra 框架」「BFT 多模型共识协议消除对齐盲区」「知觉-几何双曲空间位置编码」「确定性记忆冲突解决超越 LLM 判断」四大主线展开。

🧠 前沿技术

SkillSmith：基于 Lotka-Volterra 动力学的技能-工具协同进化框架

机构/作者： Yangbo Wei 等 标签： 【Agent】【强化学习】【具身智能】

传统 Agent 自进化框架假设工具层固定，无法修复工具级失败或分析技能间交互。SkillSmith 提出统一提案空间，将反思产生的原子束联合修改技能和工具，并引入生态效用模型（Lotka-Volterra 动力学），从执行轨迹估计技能间互补性与冲突性交互矩阵。在 WildClawBench 等三个基准测试和 Qwen3.5 五个模型规模上，SkillSmith 一致超越强基线，增益随任务复杂度和多技能协同激活而放大。[1]

来源： arXiv:2606.01314^[1]

Consilium Protocol：拜占庭容错派生的多模型认知共识协议

机构/作者： —（MIT 许可开源） 标签： 【Agent】【大模型】【安全】

该协议将认知角色赋予语言模型作为独立引擎——分离模型身份与推理方式，引入样本内/样本外验证框架。在 1,478 场跨 10 个领域的审议中证明：认知角色而非底层模型决定认知行为（10.69 的前沿模型相当）；RLHF 对齐训练在特定领域产生可测量的认知盲区（争议政策主题挑战程度低 12.3pp）；协议自身无方向性偏差。完整协议 MIT 许可开源。[2]

来源： arXiv:2606.00005^[2]

Science Earth：面向 AI 原生科学发现的行星级运行时系统

机构/作者： Zhe Zhao, Haibin Wen 等 标签： 【Agent】【生成式 AI】【多模态】

Science Earth 提出行星级科学运行时，任何能力节点（仿真集群、湿实验室机器人、证明引擎、单细胞分析管线）可通过 EACN 协议相互发现、协商任务所有权、跨不相容证据标准裁决。在跨太平洋高阶 Kuramoto 同步研究中，Agent 系统自动识别并纠正了 Ott-Antonsen 分析理论中 Lorentzian 极限外的闭环比假设偏差。[3]

来源： arXiv:2606.01316^[3]

📄 学术论文

SkillRevise：执行轨迹驱动的 LLM Agent 技能修复框架

标签： 【Agent】【大模型】

现有方法依赖专家或一次性 LLM 生成的初始技能，缺乏行为验证。SkillRevise 从执行证据诊断技能缺陷，检索通用修复原则，应用执行锚定编辑。在三个基准和五个 LLM 上大幅优于一次性基线。[4]

来源： arXiv:2606.01139^[4]

AnyEdit++：基于贝叶斯意外的自适应长文知识编辑（ICML 2026）

标签： 【大模型】【生成式 AI】

现有方法使用固定窗口分块破坏逻辑结构。AnyEdit++ 引入 Bayes-Chunk 自适应分割机制，基于贝叶斯意外动态识别语义边界。建立了结构独立性和因果局部性两个理论原则，在数学推理、代码生成和叙事任务中达到 SOTA。[5]

来源： arXiv:2606.01053^[5]

TriLens：逐层 Logit-Lens 熵的白盒幻觉检测

标签： 【大模型】【安全】

在 Transformer 每层同时读出自注意力输出、FFN 输出和残差流的 logit lens 熵，得出三维熵轨迹描述确定性的形成过程。这一简洁信号在各指令微调 LLM 和 QA 基准上构成强检测器。[6]

来源： arXiv:2606.01033^[6]

EVA：为形式化数学验证的生成式奖励建模实现期望值对齐

标签： 【强化学习】【大模型】

针对 Lean 4 形式化验证，提出 EVA 过程——模型输出结构化 JSON 整数评分，EVA 从对应锚定 token 的 logit 计算期望连续值。训练联合因果语言建模与 MSE 损失。实例化 Leibniz 奖励模型，显著减少离散化伪影。[7]

来源： arXiv:2606.01160^[7]

TaskWeave：长周期组织动力学多 Agent 仿真框架

标签： 【Agent】【多智能体】

将长期组织仿真形式化为以记忆为中心的协调问题，设计 Formulate-Partition-Diagnose-Align 循环。在一年期 IT 公司仿真中验证，支持连贯的长周期组织动力学，产生落地工件并适应外部环境。[8]

来源： arXiv:2606.01199^[8]

确定性记忆冲突解决：不要问 LLM 追踪时效

标签： 【Agent】【大模型】

MemoryAgentBench 揭示所有现有系统在事实冲突解决上的瓶颈在聚合阶段而非存储阶段。用 Python max(serial) 替代 LLM 判断，在单跳任务上提升 +10.8 分，在 262K 上下文下达 94.8%，比最佳发布结果高 +20 分。[9]

来源： arXiv:2606.01435^[9]

The Shape of Wisdom：语言模型中的决策轨迹分析

标签： 【大模型】【可解释性】

在 9,000 轨迹 MMLU 研究中发现，最大群体是"不稳定正确"而非"稳定正确"。注意力标量指向正确方向而 MLP 标量不指向，回答了哪些答案已稳定、哪些仍脆弱。[10]

来源： arXiv:2606.01202^[10]

ATOM：树上多 Agent 路径协调用于多目标分子优化

标签： 【Agent】【AI for Science】

将分子优化形式化为树结构搜索，每个节点驻留一个专用目标的 Agent。Agent 沿不同路径协调而非强制全局共识，全局记忆平衡探索与利用。在涉及活性、合成性和 ADMET 性质的多目标基准上持续提升帕累托覆盖率。[11]

来源： arXiv:2606.00008^[11]

Deliberative Curation：多 Agent 知识库的审慎策展协议

标签： 【Agent】【安全】

结合三个治理层：知识工件生命周期形式化为标签转换系统，Beta 声誉+EigenTrust 加权的审慎投票，针对无状态 Agent 的分级制裁。在 100 Agent 七种行为原型的仿真中，在中等对抗下精度从 0.791 提升至 0.826。[12]

来源： arXiv:2606.00007^[12]

Emergent Ordinal Geometry：局部比较训练中 Transformer 涌现序数几何

标签： 【大模型】【认知科学】

仅在隐藏全序的相邻比较上训练的 Transformer 在未见远程比较上泛化，实体嵌入坍缩至一维流形。决策置信度和几何分离度随序数距离单调增长，直接镜像了在人类、灵长类和啮齿类动物中观察到的符号距离效应。[13]

来源： arXiv:2606.01269^[13]

📱 应用产品

AI-Paper-Review：AI 同行评审辅助工具

标签： 【生成式 AI】【应用产品】

在 20 篇计算机体系结构论文上的案例研究，构建 Web UI 集成工具，从多样化 AI 评审池中选择评审者，聚类并排序评审意见。发现 AI 评审可覆盖人类评审提出的大量问题，也能检测人类忽视的问题。开源。[14]

来源： arXiv:2606.01013^[14]

GovAI-Pipe：面向电子政务的AI治理管线框架

标签： 【Agent】【安全】【应用产品】

针对土耳其 6800 万用户的 e-Devlet 网关（9200+ 服务），提出四层治理管线：部署前验证、部署治理、运行时监控和事后治理。每层锚定 EU AI Act 和 GDPR 的具体条款，在电子政务高风险场景中示范。开源。[15]

来源： arXiv:2606.01417^[15]

📚 参考链接：

[1] SkillSmith - arXiv:2606.01314 https://arxiv.org/abs/2606.01314^[16] [2] Consilium Protocol - arXiv:2606.00005 https://arxiv.org/abs/2606.00005^[17] [3] Science Earth - arXiv:2606.01316 https://arxiv.org/abs/2606.01316^[18] [4] SkillRevise - arXiv:2606.01139 https://arxiv.org/abs/2606.01139^[19] [5] AnyEdit++ (ICML 2026) - arXiv:2606.01053 https://arxiv.org/abs/2606.01053^[20] [6] TriLens - arXiv:2606.01033 https://arxiv.org/abs/2606.01033^[21] [7] EVA / Leibniz - arXiv:2606.01160 https://arxiv.org/abs/2606.01160^[22] [8] TaskWeave - arXiv:2606.01199 https://arxiv.org/abs/2606.01199^[23] [9] Deterministic Memory Conflict Resolution - arXiv:2606.01435 https://arxiv.org/abs/2606.01435^[24] [10] The Shape of Wisdom - arXiv:2606.01202 https://arxiv.org/abs/2606.01202^[25] [11] ATOM - arXiv:2606.00008 https://arxiv.org/abs/2606.00008^[26] [12] Deliberative Curation - arXiv:2606.00007 https://arxiv.org/abs/2606.00007^[27] [13] Emergent Ordinal Geometry - arXiv:2606.01269 https://arxiv.org/abs/2606.01269^[28] [14] AI-Paper-Review - arXiv:2606.01013 https://arxiv.org/abs/2606.01013^[29] [15] GovAI-Pipe - arXiv:2606.01417 https://arxiv.org/abs/2606.01417^[30]

引用链接

[1]arXiv:2606.01314: https://arxiv.org/abs/2606.01314

[2]arXiv:2606.00005: https://arxiv.org/abs/2606.00005

[3]arXiv:2606.01316: https://arxiv.org/abs/2606.01316

[4]arXiv:2606.01139: https://arxiv.org/abs/2606.01139

[5]arXiv:2606.01053: https://arxiv.org/abs/2606.01053

[6]arXiv:2606.01033: https://arxiv.org/abs/2606.01033

[7]arXiv:2606.01160: https://arxiv.org/abs/2606.01160

[8]arXiv:2606.01199: https://arxiv.org/abs/2606.01199

[9]arXiv:2606.01435: https://arxiv.org/abs/2606.01435

[10]arXiv:2606.01202: https://arxiv.org/abs/2606.01202

[11]arXiv:2606.00008: https://arxiv.org/abs/2606.00008

[12]arXiv:2606.00007: https://arxiv.org/abs/2606.00007

[13]arXiv:2606.01269: https://arxiv.org/abs/2606.01269

[14]arXiv:2606.01013: https://arxiv.org/abs/2606.01013

[15]arXiv:2606.01417: https://arxiv.org/abs/2606.01417

[16]https://arxiv.org/abs/2606.01314

[17]https://arxiv.org/abs/2606.00005

[18]https://arxiv.org/abs/2606.01316

[19]https://arxiv.org/abs/2606.01139

[20]https://arxiv.org/abs/2606.01053

[21]https://arxiv.org/abs/2606.01033

[22]https://arxiv.org/abs/2606.01160

[23]https://arxiv.org/abs/2606.01199

[24]https://arxiv.org/abs/2606.01435

[25]https://arxiv.org/abs/2606.01202

[26]https://arxiv.org/abs/2606.00008

[27]https://arxiv.org/abs/2606.00007

[28]https://arxiv.org/abs/2606.01269

[29]https://arxiv.org/abs/2606.01013

[30]https://arxiv.org/abs/2606.01417