为什么现在的 AI 代理(Agents)还在做“无用功”?

从模型自主进化到机器人动作规划，本周科技前沿揭示了 AI 落地过程中被掩盖的结构性矛盾

本期内容

思维链（CoT）推理的“隐藏错误意识”：为什么模型知道错了却改不了？
G-Zero：摆脱外部裁判的自主进化方案
BehaviorBench：自动驾驶强化学习的“现实扭曲”
Key-Value Means (KVM)：长上下文与线性 RNN 的最佳折中
EgoMemReason：长周期自我中心视频理解的瓶颈
Muninn：扩散模型轨迹规划的 4.6 倍加速器
ERASE：高分辨率视觉 Token 的自适应剪枝
Adaptive Action Chunking：打破固定长度的动作瓶颈
Concordia：隐私保护下的联邦大模型学习
JODA：为具身智能注入物理真实性

要闻

思维链（CoT）推理的“隐藏错误意识”：为什么模型知道错了却改不了？

研究发现，即便 LLM 在内部隐藏状态中对自己的推理错误有着极高的感知精度（AUROC 达 0.95），但这些错误信号在模型输出中完全被掩盖，且目前已知的干预手段（如激活操控、self-correction）均无法将其转化为实际的纠错行为。这一发现揭示了模型内部的“诊断信号”与“因果控制”之间存在断层，提示我们在设计 agentic workflows 时，不能单纯依赖模型的内部置信度来判断任务可行性。

arxiv.org/abs/2605.09502

G-Zero：摆脱外部裁判的自主进化方案

针对开放式生成任务中过度依赖大模型裁判导致的奖励欺骗问题，G-Zero 提出了一种无需外部验证器（verifier-free）的自主训练框架。通过引入“Hint-δ”指标，模型基于生成器在受限与独立状态下的预测偏移进行自我奖励。这一机制展示了在不可验证领域，利用模型内部分布动态实现持续自我进化的潜力，是构建完全自主 Agent 的重要探索。

↗ github.com/Chengsong-Huang/G-Zero

arxiv.org/abs/2605.09959

BehaviorBench：自动驾驶强化学习的“现实扭曲”

纯自博弈（self-play）训练出的自动驾驶策略在复杂交通中往往发生严重过拟合。BehaviorBench 基准测试集指出，现有的标准化评估过于简化，无法捕捉多智能体交互的动态。研究建议采用结合 PPO 策略与规则规划器的混合模式，这再次提醒工程师：在机器人控制领域，纯端到端学习在缺乏鲁棒性基准的情况下，依然面临严重的泛化挑战。

↗ github.com/boschresearch/behavior-bench/

arxiv.org/abs/2605.10034

Key-Value Means (KVM)：长上下文与线性 RNN 的最佳折中

KVM 引入了一种分块循环注意力机制，利用余弦相似度进行胜者全取（winner-take-all）状态压缩。该架构无需特殊 CUDA 核即可在分块并行训练中运行，为处理长上下文任务提供了一种可以在预填充速度与内存占用之间动态平衡的替代方案，特别适合资源受限的推理场景。

arxiv.org/abs/2605.09877

EgoMemReason：长周期自我中心视频理解的瓶颈

当前多模态大模型在处理超长时序（周级别）视频任务时表现堪忧，准确率不足 40%。该基准测试强调，实体、事件与行为记忆的深度整合是 embodied AI 进化的硬骨头。当模型无法有效回溯数小时的交互轨迹时，所谓的“Always-on”智能助手依然只能处理瞬时任务。

arxiv.org/abs/2605.09874

Muninn：扩散模型轨迹规划的 4.6 倍加速器

机器人轨迹规划中扩散模型的去噪耗时一直是实时控制的痛点。Muninn 提出了一种免训练的缓存包装器，通过动态不确定性预算在计算与缓存之间实时切换。这种策略展示了如何在不破坏轨迹质量的前提下，通过工程手段显著压缩采样推理开销。

↗ github.com/gokulp01/Muninn

arxiv.org/abs/2605.09999

ERASE：高分辨率视觉 Token 的自适应剪枝

面对 VLM 处理高分辨率输入时的算力浪费，ERASE 通过两阶段机制动态去除冗余视觉 Token。在 Qwen2.5-VL 上测试显示，即便剪枝 85% 的 Token，仍能保持 90% 左右的原始精度。这对需要在移动终端或资源受限环境中部署多模态模型的开发者极具参考价值。

↗ github.com/Tuna-Luna/ERASE

arxiv.org/abs/2605.09982

Adaptive Action Chunking：打破固定长度的动作瓶颈

传统的动作分块方法受限于固定的块长度，难以适应复杂多变的动作流。ACH 算法通过 Transformer 在单次前向传播中估计多长度动作价值，实现了根据环境状态动态选择最优序列长度。此方法大幅提升了离线到在线强化学习的训练效率。

arxiv.org/abs/2605.10044

Concordia：隐私保护下的联邦大模型学习

在医疗和金融等隐私敏感领域，如何实现联邦学习下的 LLM 微调？Concordia 通过客户端生成的“自优化合成数据表”配合 GRPO 机制进行联邦对齐，无需共享原始数据或模型参数，证明了合成数据在联邦环境下的效用及鲁棒性。

arxiv.org/abs/2605.09855

JODA：为具身智能注入物理真实性

目前的仿真环境往往难以模拟复杂的机械动作，如阻尼、干摩擦。JODA 将关节动力学建模为结构化的物理场，不仅具备可微分的特性，还能利用多模态输入推断物理属性。这为提升机器人在复杂物理环境中的泛化操作能力开辟了新思路。

arxiv.org/abs/2605.09954

社媒声音

多智能体协作攻克物理难题@Hugging Face

physics-intern智能体框架通过任务分解与协作，将Gemini 3.1 Pro在CritPt基准测试中的表现从17.7%提升至31.4%，证明了多智能体方案在解决高端学术研究任务上的显著优势，突破了单一模型能力瓶颈。

算法优化超越摩尔定律@clem 🤗

数据显示，在硬件配置不变的情况下，本地运行模型性能在24个月内提升了4.7倍（每10.7个月翻倍），大幅超越摩尔定律。这证实了算法优化在推动AI普惠化与本地化部署中的核心价值，正以指数级速度提升算力使用效能。

ML科研辅助效率的飞跃@Hugging Face

ml-intern工具三周内产出相当于人类两个月的科研成果。该工具已支持超1.7万个训练任务，成功处理复杂代码优化、DeepSeek模型架构复现及科研论文撰写，标志着AI辅助研发已进入高效率的SOTA落地阶段。

小型模型推理能力的潜力@Antoine Chaffin

Reason-ModernColBERT模型在BrowseComp-Plus数据集上刷新SOTA，性能远超规模大54倍的模型。该成果验证了轻量化模型在复杂推理任务中的高效潜力，且通过少量微调即可进一步提升性能，为追求高效率的AI开发者提供了重要范式。

AI交互向沉浸式视觉演进@Andrej Karpathy

Karpathy指出AI交互应超越文本，转向HTML、视频及仿真模拟。他建议利用LLM生成HTML代码并在浏览器中反馈，以利用人类视觉处理优势。此演进预示着AI从单一信息读取向沉浸式、高效率反馈的人机交互模式转变。

网页自动化智能体基座@Adina Yakup

WebWorld模型系列在MiniWob++和WebArena中性能显著提升，事实准确性已对标Claude Opus 4.1与Gemini 3 Pro。其支持的统一动作空间与长链路模拟能力，为网页自动化领域提供了可直接落地的强大开源技术方案。

医疗智能体标准化开发框架@Maziyar PANAHI

OpenMed Agent引入了基于HF端点与MCP协议的标准化医疗信息提取方案。通过全流程可见性设计与模块化架构，该工具有效降低了临床数据处理的开发门槛，助力医疗人工智能在业务场景中的快速部署。

如果这期内容对你有帮助，点个赞是最好的鼓励 ✦