AI 技术 | 隐空间推理加速 12.9*、MoE 零训练压缩、Agent 自进化基准

AI 技术 | 隐空间推理加速 12.9*、MoE 零训练压缩、Agent 自进化基准 - 2026.06.01

本周 arXiv cs.AI 单日新增 141 篇、cs.LG 新增 174 篇（5/27-5/29 上架），重磅围绕「隐空间安全推理护栏 12.9×加速」「多 Agent 推理轨迹级合成超越投票聚合上限」「MoE 无需训练的专家池压缩新范式 ConMoE」「RL 保持内部电路优于 SFT 的机械论起源」四大主线展开，机器人世界模型可靠性基准、编译器 AI Pass 生成、Agent 自进化能力精细化评测同步迎来里程碑。

🧠 前沿技术

COLAGUARD：隐空间安全推理护栏实现 12.9× 加速

机构：UC Davis 等 | 【大模型】【AI安全】

现有更安全的护栏需显式推理生成，产生大量延迟和 token 开销。COLAGUARD 通过阶段性训练课程将多步安全推理转移至连续隐空间，推理时直接进行隐状态传播。在 10 种 prompt 和 response 审核设置、8 个安全基准上，COLAGUARD 相较 Llama Guard 3 提升 macro-F1 8.24 分，在匹配 GuardReasoner 性能的同时实现 12.9× 速度提升和 22.4× token 使用减少——隐推理成为可部署护栏的实用替代方案。

arXiv:2605.29068 | Robust and Efficient Guardrails with Latent Reasoning

Self-Consistent Mixture of Agents：推理轨迹级合成超越投票天花板

机构：独立研究 | 【Agent】【多智能体】

当多个 LLM Agent 解决相同问题时，标准做法将推理压缩为 majority vote 或分层合成。本文发现这是不必要的损失：读取完整推理轨迹的 LLM 聚合器即使 Agent 一致同意也能恢复正确解，有害修正始终低于有益修正（"聚合悖论"）。提出 Self-Consistent Mixture of Agents，通过语义保持的扰动生成轨迹多样性，用锚定精炼保留多数派保障（可证明不退化），始终合成而非在共识处门控。单一模型加扰动诱导的轨迹多样性即可超越异构模型池，覆盖结构化推理、博士级科学、竞赛数学和竞技编程。

arXiv:2605.29116 | Beyond Consensus: Trace-Level Synthesis in Mixture of Agents

ConMoE：无需训练的 MoE 专家池原型重映射压缩

机构：独立研究 | 【大模型】【模型压缩】

MoE 语言模型虽降低每 token 计算量，但存储和部署所有专家仍消耗大量内存。现有后训练压缩主要通过剪枝或合并专家权重。ConMoE 将 MoE 后训练压缩重新定义为专家池整合：保留一小部分预训练专家作为可复用原型，确定性重映射每个原始专家参考到选定原型。无需权重更新或后压缩微调，在 deepseek-moe-16b-base 上以 25% 和 50% 路由专家减少均取得最优平均分，在 Qwen3-30B-A3B 和 OLMoE-1B-7B 上同样保持竞争力。

arXiv:2605.29350 | Expert-Pool Consolidation via Prototype Reassignment for MoE Compression

EKSFT：熵-KL 散度选择性微调保持预训练分布

机构：中国科学技术大学（USTC） | 【大模型】【强化学习】

SFT+RL 是标准后训练范式，但低数据场景下 SFT 会导致模型拟合有限样本，偏离预训练分布，阻碍后续 RL 探索。EKSFT 提出选择性掩码高熵或高 KL 散度的 token，排除这些高不确定性、分布偏移的 token 后注入任务知识。数学推理基准上 EKSFT 持续优于标准 SFT，后续 RL 微调效果也更优。代码已开源：github.com/MINE-USTC/EKSFT

arXiv:2605.29303 | Entropy-KL Divergence-based Token Masking: A Novel Approach for Selective Fine-tuning of Large Language Models

RL 保留内部电路优于 SFT 的机械论起源

机构：独立研究 | 【大模型】【强化学习】

近期行为研究表明 RL 比 SFT 更有效保留先前能力，政策梯度更新更接近基策略。本文将其扩展至机械论层次，引入微分电路脆弱性（differential circuit vulnerability）——头部级别的电路退化度量。在 Qwen2.5-3B-Instruct 科学问答适应实验中，发现机械论权衡：SFT 更快适应目标任务但产生更大电路破坏和先前能力遗忘，RL 则保留更大比例的基础电路，代价是任务适应较慢。代码已开源。

arXiv:2605.28860 | Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

📄 学术论文

VFEAgent：端到端多模态多 Agent 自动完成有限元分析

《VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis》

FEA 是现代工程设计基石，但工作流复杂、依赖领域专家。VFEAgent 集成多模态视觉语言多 Agent 管线（ReAct 驱动从异构输入提取结构化 FEA 规格）和验证优先的代码合成框架（含自调试和回退机制），直接从输入图片和问题描述生成完整且物理有效的仿真，在多种工程力学场景中取得高成功率，超越 LLM 基线方法。

arXiv:2605.28978 | cs.AI

BenchTrace：LLM Agent 自进化能力精细化基准

《BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents》

自进化 Agent 通过反思过去失败来改进，但现有评估仅衡量任务分数，不揭示反思质量。BenchTrace 构建1,821 条标注 episode 覆盖六种任务的快照反思数据集，提出反思评估和演化评估双模块，以及新指标 failure avoidance rate (FAR)。Qwen3-32B 和 GPT-4.1 的反思评估端到端通过率均低于 30%，诊断是主要瓶颈。自进化方法虽提升 FAR，但 Agent 会遗忘早期教训、无法跨上下文泛化。

arXiv:2605.29225 | cs.AI

RACE-Sched：异步双流 Agent 架构解耦工业实时调度

《Harmonizing Real-Time Constraints and Long-Horizon Reasoning: An Asynchronous Agentic Framework for Dynamic Scheduling》

动态柔性作业车间调度（DFJSP）需要在随机扰动与全局优化间权衡。RACE-Sched 提出异步 Agent 框架：反应流执行低延迟符号启发式实现实时分派，并行的深思流利用 LLM 合成、验证和演化规则。在 GEN-Bench、MK-Bench 和 JMS-Bench 上超越深度强化学习和其它 LLM 基线，安全地协调实时约束与长程推理。

arXiv:2605.29262 | cs.AI

PassNet：首个大规模 LLM 编译器优化 Pass 生成生态系统

《Scaling Large Language Models for Graph Compiler Pass Generation》

分析发现 43% 真实世界子图在默认编译下出现端到端减速。PassNet 构建18K+ 独特计算图（来自 100K 真实模型）的 PassNet-Dataset 和 200 个长尾可融合任务的 PassBench。引入 Error-aware Speedup Score (ES_t) 统一正确性、稳定性和性能。表明 PassBench 具有高度挑战性，首次大规模验证了 LLM 直接编写编译器优化 pass 的可行性。

arXiv:2605.29357 | cs.AI; cs.PL

Xetrieval：嵌入层级的密集检索可解释性框架

《Xetrieval: Mechanistically Explaining Dense Retrieval》

现有检索解释聚焦词法匹配、token 对齐等表面信号。Xetrieval 提出：轻量推理内化器（Reasoing Internalizer）在嵌入空间单次前向传播中近似 CoT 推理，再将推理增强嵌入分解为稀疏人类可解释特征。在多个检索器和基准上实现更强对的成对干预效果，支持任务级特征引导。

arXiv:2605.29507 | cs.AI; cs.IR

ParaTool：将工具调用从上下文内化到参数化

《ParaTool: Shifting Tool Representations from Context to Parameters》

传统 ICL 式工具调用将完整工具文档放入上下文，导致推理开销和幻觉。ParaTool 将每个工具投影为独立可加载参数集：参数化工具预训练 → 软工具选择门控网络 → 参数化工具联合微调。在 Stable ToolBench 和 BFCL 上显著超越强 ICL 基线，同时降低计算复杂度，使 LLM 真正内化工具体验。

arXiv:2605.29561 | cs.AI; cs.SE

MiraBench：机器人世界模型动作条件可靠性评估

《MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models》

动作条件世界模型作为机器人学习可扩展模拟器日趋重要，但现有评估侧重视觉保真度。MiraBench 定义三层级动作条件可靠性：物理遵循、动作跟随保真度、乐观偏差检测。在 16,000+ 条人类标注判断上评估 12 个代表性模型配置，核心发现：视觉保真度和动作保真度不相关；增大模型规模并不可靠改进动作跟随；乐观偏差普遍存在于当前系统。

arXiv:2605.29360 | cs.AI

其他值得关注的论文

Harmful Continuation Cut：诊断答案正确长 CoT 中后续推理的有害性，提出轻量边界代理 HCC（arXiv:2605.29288 | cs.AI）
Neuro-Symbolic KG Construction：本体约束后校正的神经符号知识图谱构建框架，减少 token 使用同时提升 KG 一致性（arXiv:2605.29168 | cs.AI）
Deep Research Pipeline：文献检索评估范式革新——Deep Research 召回率从 20% 提升至 80%+，人类引用仅 51% 中度相关（arXiv:2605.29234 | cs.AI）
PiSAR Benchmark：屏幕锚定行为推理 12,929 元组语料库，微调 Qwen3-VL-8B 达 sem_sim 0.783，超前沿零样本 0.30 绝对差距（arXiv:2605.29400 | cs.AI）
Closed-Form Variational Inference：五原语因子图组合保持闭式变分消息传递，实现可组合贝叶斯专家混合（arXiv:2605.29467 | cs.LG）

📱 应用产品

VFEAgent 开源

端到端有限元分析自动化多 Agent 框架已以 preprint 形式公开，支持从图片+文本描述直接生成 FEA 仿真代码。

PassNet 数据集与基准公开

18K+ 计算图、100K 真实模型来源的编译器 pass 生成数据集（PassNet-Dataset）和 200 个长尾融合任务基准（PassBench）已随论文发布，为 AI 辅助编译器优化提供首个规模化标准评估平台。

EKSFT 微调框架开源

中国科学技术大学开源的 EKSFT 选择性微调框架，在数学推理场景中可直接替换标准 SFT，支持后续 RL 阶段更高效探索。代码：github.com/MINE-USTC/EKSFT

总结： 本期 AI 技术呈现三条清晰主线——安全推理「隐式化」（COLAGUARD 隐空间护栏 12.9×加速）、模型部署「节俭化」（ConMoE 零训练压缩 50% 移除）、Agent 能力「精细化」（BenchTrace 首次量化自进化 Agent 的反思瓶颈<30%、MiraBench 揭示视觉≠动作保真度）。ConMoE、EKSFT、Xetrieval 等多项工作已开源，为社区直接提供了即用工具。

🔗 参考链接

COLAGUARD: https://arxiv.org/abs/2605.29068^[1]
Self-Consistent MoA: https://arxiv.org/abs/2605.29116^[2]
ConMoE: https://arxiv.org/abs/2605.29350^[3]
EKSFT: https://arxiv.org/abs/2605.29303^[4]
RL vs SFT Circuit Preservation: https://arxiv.org/abs/2605.28860^[5]
VFEAgent: https://arxiv.org/abs/2605.28978^[6]
BenchTrace: https://arxiv.org/abs/2605.29225^[7]
RACE-Sched: https://arxiv.org/abs/2605.29262^[8]
PassNet: https://arxiv.org/abs/2605.29357^[9]
Xetrieval: https://arxiv.org/abs/2605.29507^[10]
ParaTool: https://arxiv.org/abs/2605.29561^[11]
MiraBench: https://arxiv.org/abs/2605.29360^[12]
Harmful Continuation Cut: https://arxiv.org/abs/2605.29288^[13]
Neuro-Symbolic KG: https://arxiv.org/abs/2605.29168^[14]
Deep Research Pipeline: https://arxiv.org/abs/2605.29234^[15]
PiSAR Benchmark: https://arxiv.org/abs/2605.29400^[16]
Closed-Form Variational Inference: https://arxiv.org/abs/2605.29467^[17]

引用链接

[1]https://arxiv.org/abs/2605.29068

[2]https://arxiv.org/abs/2605.29116

[3]https://arxiv.org/abs/2605.29350

[4]https://arxiv.org/abs/2605.29303

[5]https://arxiv.org/abs/2605.28860

[6]https://arxiv.org/abs/2605.28978

[7]https://arxiv.org/abs/2605.29225

[8]https://arxiv.org/abs/2605.29262

[9]https://arxiv.org/abs/2605.29357

[10]https://arxiv.org/abs/2605.29507

[11]https://arxiv.org/abs/2605.29561

[12]https://arxiv.org/abs/2605.29360

[13]https://arxiv.org/abs/2605.29288

[14]https://arxiv.org/abs/2605.29168

[15]https://arxiv.org/abs/2605.29234

[16]https://arxiv.org/abs/2605.29400

[17]https://arxiv.org/abs/2605.29467