本周 arXiv cs.AI 单日新增 141 篇、cs.LG 新增 174 篇(5/27-5/29 上架),重磅围绕「隐空间安全推理护栏 12.9×加速」「多 Agent 推理轨迹级合成超越投票聚合上限」「MoE 无需训练的专家池压缩新范式 ConMoE」「RL 保持内部电路优于 SFT 的机械论起源」四大主线展开,机器人世界模型可靠性基准、编译器 AI Pass 生成、Agent 自进化能力精细化评测同步迎来里程碑。
🧠 前沿技术
COLAGUARD:隐空间安全推理护栏实现 12.9× 加速
机构:UC Davis 等 | 【大模型】【AI安全】
现有更安全的护栏需显式推理生成,产生大量延迟和 token 开销。COLAGUARD 通过阶段性训练课程将多步安全推理转移至连续隐空间,推理时直接进行隐状态传播。在 10 种 prompt 和 response 审核设置、8 个安全基准上,COLAGUARD 相较 Llama Guard 3 提升 macro-F1 8.24 分,在匹配 GuardReasoner 性能的同时实现 12.9× 速度提升和 22.4× token 使用减少——隐推理成为可部署护栏的实用替代方案。
arXiv:2605.29068 | Robust and Efficient Guardrails with Latent Reasoning
Self-Consistent Mixture of Agents:推理轨迹级合成超越投票天花板
机构:独立研究 | 【Agent】【多智能体】
当多个 LLM Agent 解决相同问题时,标准做法将推理压缩为 majority vote 或分层合成。本文发现这是不必要的损失:读取完整推理轨迹的 LLM 聚合器即使 Agent 一致同意也能恢复正确解,有害修正始终低于有益修正("聚合悖论")。提出 Self-Consistent Mixture of Agents,通过语义保持的扰动生成轨迹多样性,用锚定精炼保留多数派保障(可证明不退化),始终合成而非在共识处门控。单一模型加扰动诱导的轨迹多样性即可超越异构模型池,覆盖结构化推理、博士级科学、竞赛数学和竞技编程。
arXiv:2605.29116 | Beyond Consensus: Trace-Level Synthesis in Mixture of Agents
ConMoE:无需训练的 MoE 专家池原型重映射压缩
机构:独立研究 | 【大模型】【模型压缩】
MoE 语言模型虽降低每 token 计算量,但存储和部署所有专家仍消耗大量内存。现有后训练压缩主要通过剪枝或合并专家权重。ConMoE 将 MoE 后训练压缩重新定义为专家池整合:保留一小部分预训练专家作为可复用原型,确定性重映射每个原始专家参考到选定原型。无需权重更新或后压缩微调,在 deepseek-moe-16b-base 上以 25% 和 50% 路由专家减少均取得最优平均分,在 Qwen3-30B-A3B 和 OLMoE-1B-7B 上同样保持竞争力。
arXiv:2605.29350 | Expert-Pool Consolidation via Prototype Reassignment for MoE Compression
EKSFT:熵-KL 散度选择性微调保持预训练分布
机构:中国科学技术大学(USTC) | 【大模型】【强化学习】
SFT+RL 是标准后训练范式,但低数据场景下 SFT 会导致模型拟合有限样本,偏离预训练分布,阻碍后续 RL 探索。EKSFT 提出选择性掩码高熵或高 KL 散度的 token,排除这些高不确定性、分布偏移的 token 后注入任务知识。数学推理基准上 EKSFT 持续优于标准 SFT,后续 RL 微调效果也更优。代码已开源:github.com/MINE-USTC/EKSFT
arXiv:2605.29303 | Entropy-KL Divergence-based Token Masking: A Novel Approach for Selective Fine-tuning of Large Language Models
RL 保留内部电路优于 SFT 的机械论起源
机构:独立研究 | 【大模型】【强化学习】
近期行为研究表明 RL 比 SFT 更有效保留先前能力,政策梯度更新更接近基策略。本文将其扩展至机械论层次,引入微分电路脆弱性(differential circuit vulnerability)——头部级别的电路退化度量。在 Qwen2.5-3B-Instruct 科学问答适应实验中,发现机械论权衡:SFT 更快适应目标任务但产生更大电路破坏和先前能力遗忘,RL 则保留更大比例的基础电路,代价是任务适应较慢。代码已开源。
arXiv:2605.28860 | Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?
📄 学术论文
VFEAgent:端到端多模态多 Agent 自动完成有限元分析
《VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis》
FEA 是现代工程设计基石,但工作流复杂、依赖领域专家。VFEAgent 集成多模态视觉语言多 Agent 管线(ReAct 驱动从异构输入提取结构化 FEA 规格)和验证优先的代码合成框架(含自调试和回退机制),直接从输入图片和问题描述生成完整且物理有效的仿真,在多种工程力学场景中取得高成功率,超越 LLM 基线方法。
arXiv:2605.28978 | cs.AI
BenchTrace:LLM Agent 自进化能力精细化基准
《BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents》
自进化 Agent 通过反思过去失败来改进,但现有评估仅衡量任务分数,不揭示反思质量。BenchTrace 构建1,821 条标注 episode 覆盖六种任务的快照反思数据集,提出反思评估和演化评估双模块,以及新指标 failure avoidance rate (FAR)。Qwen3-32B 和 GPT-4.1 的反思评估端到端通过率均低于 30%,诊断是主要瓶颈。自进化方法虽提升 FAR,但 Agent 会遗忘早期教训、无法跨上下文泛化。
arXiv:2605.29225 | cs.AI
RACE-Sched:异步双流 Agent 架构解耦工业实时调度
《Harmonizing Real-Time Constraints and Long-Horizon Reasoning: An Asynchronous Agentic Framework for Dynamic Scheduling》
动态柔性作业车间调度(DFJSP)需要在随机扰动与全局优化间权衡。RACE-Sched 提出异步 Agent 框架:反应流执行低延迟符号启发式实现实时分派,并行的深思流利用 LLM 合成、验证和演化规则。在 GEN-Bench、MK-Bench 和 JMS-Bench 上超越深度强化学习和其它 LLM 基线,安全地协调实时约束与长程推理。
arXiv:2605.29262 | cs.AI
PassNet:首个大规模 LLM 编译器优化 Pass 生成生态系统
《Scaling Large Language Models for Graph Compiler Pass Generation》
分析发现 43% 真实世界子图在默认编译下出现端到端减速。PassNet 构建18K+ 独特计算图(来自 100K 真实模型)的 PassNet-Dataset 和 200 个长尾可融合任务的 PassBench。引入 Error-aware Speedup Score (ES_t) 统一正确性、稳定性和性能。表明 PassBench 具有高度挑战性,首次大规模验证了 LLM 直接编写编译器优化 pass 的可行性。
arXiv:2605.29357 | cs.AI; cs.PL
Xetrieval:嵌入层级的密集检索可解释性框架
《Xetrieval: Mechanistically Explaining Dense Retrieval》
现有检索解释聚焦词法匹配、token 对齐等表面信号。Xetrieval 提出:轻量推理内化器(Reasoing Internalizer)在嵌入空间单次前向传播中近似 CoT 推理,再将推理增强嵌入分解为稀疏人类可解释特征。在多个检索器和基准上实现更强对的成对干预效果,支持任务级特征引导。
arXiv:2605.29507 | cs.AI; cs.IR
ParaTool:将工具调用从上下文内化到参数化
《ParaTool: Shifting Tool Representations from Context to Parameters》
传统 ICL 式工具调用将完整工具文档放入上下文,导致推理开销和幻觉。ParaTool 将每个工具投影为独立可加载参数集:参数化工具预训练 → 软工具选择门控网络 → 参数化工具联合微调。在 Stable ToolBench 和 BFCL 上显著超越强 ICL 基线,同时降低计算复杂度,使 LLM 真正内化工具体验。
arXiv:2605.29561 | cs.AI; cs.SE
MiraBench:机器人世界模型动作条件可靠性评估
《MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models》
动作条件世界模型作为机器人学习可扩展模拟器日趋重要,但现有评估侧重视觉保真度。MiraBench 定义三层级动作条件可靠性:物理遵循、动作跟随保真度、乐观偏差检测。在 16,000+ 条人类标注判断上评估 12 个代表性模型配置,核心发现:视觉保真度和动作保真度不相关;增大模型规模并不可靠改进动作跟随;乐观偏差普遍存在于当前系统。
arXiv:2605.29360 | cs.AI
其他值得关注的论文
Harmful Continuation Cut:诊断答案正确长 CoT 中后续推理的有害性,提出轻量边界代理 HCC(arXiv:2605.29288 | cs.AI) Neuro-Symbolic KG Construction:本体约束后校正的神经符号知识图谱构建框架,减少 token 使用同时提升 KG 一致性(arXiv:2605.29168 | cs.AI) Deep Research Pipeline:文献检索评估范式革新——Deep Research 召回率从 20% 提升至 80%+,人类引用仅 51% 中度相关(arXiv:2605.29234 | cs.AI) PiSAR Benchmark:屏幕锚定行为推理 12,929 元组语料库,微调 Qwen3-VL-8B 达 sem_sim 0.783,超前沿零样本 0.30 绝对差距(arXiv:2605.29400 | cs.AI) Closed-Form Variational Inference:五原语因子图组合保持闭式变分消息传递,实现可组合贝叶斯专家混合(arXiv:2605.29467 | cs.LG)
📱 应用产品
VFEAgent 开源
端到端有限元分析自动化多 Agent 框架已以 preprint 形式公开,支持从图片+文本描述直接生成 FEA 仿真代码。
PassNet 数据集与基准公开
18K+ 计算图、100K 真实模型来源的编译器 pass 生成数据集(PassNet-Dataset)和 200 个长尾融合任务基准(PassBench)已随论文发布,为 AI 辅助编译器优化提供首个规模化标准评估平台。
EKSFT 微调框架开源
中国科学技术大学开源的 EKSFT 选择性微调框架,在数学推理场景中可直接替换标准 SFT,支持后续 RL 阶段更高效探索。代码:github.com/MINE-USTC/EKSFT
总结: 本期 AI 技术呈现三条清晰主线——安全推理「隐式化」(COLAGUARD 隐空间护栏 12.9×加速)、模型部署「节俭化」(ConMoE 零训练压缩 50% 移除)、Agent 能力「精细化」(BenchTrace 首次量化自进化 Agent 的反思瓶颈<30%、MiraBench 揭示视觉≠动作保真度)。ConMoE、EKSFT、Xetrieval 等多项工作已开源,为社区直接提供了即用工具。
🔗 参考链接
COLAGUARD: https://arxiv.org/abs/2605.29068[1] Self-Consistent MoA: https://arxiv.org/abs/2605.29116[2] ConMoE: https://arxiv.org/abs/2605.29350[3] EKSFT: https://arxiv.org/abs/2605.29303[4] RL vs SFT Circuit Preservation: https://arxiv.org/abs/2605.28860[5] VFEAgent: https://arxiv.org/abs/2605.28978[6] BenchTrace: https://arxiv.org/abs/2605.29225[7] RACE-Sched: https://arxiv.org/abs/2605.29262[8] PassNet: https://arxiv.org/abs/2605.29357[9] Xetrieval: https://arxiv.org/abs/2605.29507[10] ParaTool: https://arxiv.org/abs/2605.29561[11] MiraBench: https://arxiv.org/abs/2605.29360[12] Harmful Continuation Cut: https://arxiv.org/abs/2605.29288[13] Neuro-Symbolic KG: https://arxiv.org/abs/2605.29168[14] Deep Research Pipeline: https://arxiv.org/abs/2605.29234[15] PiSAR Benchmark: https://arxiv.org/abs/2605.29400[16] Closed-Form Variational Inference: https://arxiv.org/abs/2605.29467[17]
引用链接
[1]https://arxiv.org/abs/2605.29068
[2]https://arxiv.org/abs/2605.29116
[3]https://arxiv.org/abs/2605.29350
[4]https://arxiv.org/abs/2605.29303
[5]https://arxiv.org/abs/2605.28860
[6]https://arxiv.org/abs/2605.28978
[7]https://arxiv.org/abs/2605.29225
[8]https://arxiv.org/abs/2605.29262
[9]https://arxiv.org/abs/2605.29357
[10]https://arxiv.org/abs/2605.29507
[11]https://arxiv.org/abs/2605.29561
[12]https://arxiv.org/abs/2605.29360
[13]https://arxiv.org/abs/2605.29288
[14]https://arxiv.org/abs/2605.29168
[15]https://arxiv.org/abs/2605.29234
[16]https://arxiv.org/abs/2605.29400
[17]https://arxiv.org/abs/2605.29467
夜雨聆风