�� AI具身智能日报

�� AI具身智能日报 | 2026年5月7日

📚 精选10篇最新论文，涵盖VLA、扩散策略、强化学习、机器人操控、可解释性等前沿领域

🔥 今日亮点

车队规模VLA持续学习框架 | 扩散策略逆强化学习统一框架 | VLA模型的具身可解释性方法

📑 论文详情

1️⃣ Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

关键词: VLA | 强化学习 | 车队学习 | 持续学习 | 通才策略

核心贡献:

提出Learning While Deploying (LWD)框架，实现大规模离线到在线强化学习持续训练
结合Distributional Implicit Value Learning (DIVL)与Q-learning via Adjoint Matching (QAM)稳定异构数据学习
在16台双臂机器人车队上验证，涵盖8个真实世界操作任务，平均成功率达95%
长程任务（3-5分钟）获得最大性能提升，验证持续学习的有效性

论文链接:

https://arxiv.org/abs/2605.00416

2️⃣ Recovering Hidden Reward in Diffusion-Based Policies

关键词: 扩散策略 | 逆强化学习 | 能量模型 | 模仿学习 | 策略泛化

核心贡献:

提出EnergyFlow框架，统一生成式动作建模与逆强化学习，通过标量能量函数参数化
证明在最大熵最优条件下，去噪分数匹配学习的score函数可恢复专家软Q函数梯度
约束学习场为保守场可减少假设复杂度，收紧分布外泛化界
在多种操作任务上实现SOTA模仿性能，提取的奖励信号优于对抗式IRL方法

论文链接:

https://arxiv.org/abs/2605.00623

3️⃣ Affordance Agent Harness: Verification-Gated Skill Orchestration

关键词: VLA | 可供性定位 | 技能编排 | 验证机制 | 开放世界

核心贡献:

提出Affordance Agent Harness，统一异构技能的闭环运行时框架，配备证据存储和成本控制
通过Router自适应选择和参数化技能，利用经验记忆为重复类别提供先验
设计可供性专用Verifier，通过自一致性、跨尺度稳定性和证据充分性门控决策
在多个可供性基准上实现更强的准确率-成本帕累托前沿，减少平均技能调用和延迟

论文链接:

https://arxiv.org/abs/2605.00663

4️⃣ Thinking in Text and Images: Interleaved Vision-Language Reasoning Traces for Long-Horizon Robot Manipulation

关键词: VLA | 长程规划 | 多模态推理 | 视觉-语言推理 | 机器人操控

核心贡献:

提出Interleaved Vision-Language Reasoning (IVLR)框架，引入显式中间表示trace
Trace交替文本子目标与视觉关键帧，实现全局语义-几何推理
在LIBERO基准上达到95.5%平均成功率，LIBERO-Long上达92.4%
消融实验显示纯文本trace达62.0%，纯视觉trace达68.4%，交错trace达92.4%

论文链接:

https://arxiv.org/abs/2605.00438

5️⃣ Embodied Interpretability: Linking Causal Understanding to Generalization in Vision-Language-Action Models

关键词: VLA | 可解释性 | 因果推断 | 分布外泛化 | 视觉归因

核心贡献:

提出Interventional Significance Score (ISS)，通过干预掩码估计视觉区域对动作预测的因果影响
引入Nuisance Mass Ratio (NMR)标量度量，量化对任务无关特征的归因
证明ISS允许无偏估计，并刻画动作预测误差作为因果影响代理的条件
实验表明NMR可预测泛化行为，ISS比现有可解释性方法提供更忠实的解释

论文链接:

https://arxiv.org/abs/2605.00321

6️⃣ MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation

关键词: 精细操控 | 空间注意力 | 低延迟控制 | 双手操作 | 模仿学习

核心贡献:

提出多阶段空间注意力模块，提取稳定的2D注意力点并联合预测未来注意力序列
引入自监督时序对齐损失，抑制有限数据下的定位漂移，无需关键点标注
在ALOHA双手平台上评估任务成功率、注意力漂移、推理延迟和视觉干扰鲁棒性
在保持低延迟推理的同时，提升定位稳定性和任务性能

论文链接:

https://arxiv.org/abs/2605.00475

7️⃣ Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances

关键词: 移动操作 | 立体视觉 | 空间注意力 | 尺度变化 | 实时控制

核心贡献:

提出基于立体多阶段空间注意力的深度预测学习方法，用于实时移动操作
从立体图像提取任务相关空间注意力点，通过分层循环架构与机器人状态集成
在移动平台上评估刚体放置、关节物体操作和可变形物体交互任务
在随机初始位置和视觉干扰条件下，比模仿学习和VLA基线具有更高鲁棒性和成功率

论文链接:

https://arxiv.org/abs/2605.00471

8️⃣ PrefMoE: Robust Preference Modeling with Mixture-of-Experts Reward Learning

关键词: 偏好学习 | 混合专家 | 奖励学习 | 鲁棒性 | 多目标

核心贡献:

提出PrefMoE框架，使用混合专家模型学习多个专用奖励专家，适应异构偏好监督
采用轨迹级软路由自适应组合专家，捕捉多样化潜在偏好模式
引入负载均衡正则化器防止专家崩溃，稳定训练过程
在D4RL运动基准和MetaWorld操作任务上，比单模型基线提升偏好预测鲁棒性

论文链接:

https://arxiv.org/abs/2605.00384

9️⃣ MiniVLA-Nav v1: A Multi-Scene Simulation Dataset for Language-Conditioned Robot Navigation

关键词: VLA | 语言条件导航 | 仿真数据集 | 对象接近 | 多场景

核心贡献:

提出MiniVLA-Nav v1仿真数据集，支持语言条件对象接近(LCOA)导航任务
涵盖四个照片级真实Isaac Sim环境（办公室、医院、仓库），共1,174个episode
提供同步640x640 RGB图像、度量深度图、实例分割掩码和专家动作标签
支持分布内准确性、模板改写鲁棒性和分布外对象类别评估

论文链接:

https://arxiv.org/abs/2605.00397

🔟 A Model-based Visual Contact Localization and Force Sensing System for Compliant Robotic Grippers

关键词: 软体夹持器 | 视觉力感知 | 接触定位 | 有限元分析 | 模型驱动

核心贡献:

提出基于模型的视觉力感知方法，集成迭代接触定位并泛化到未见对象
从腕部相机RGB-D图像提取结构关键点，定义逆有限元分析模拟参数
深度学习在线3D重建和姿态估计管道动态更新接触位置，对遮挡和未见对象鲁棒
负载阶段平均RMSE为0.23N（2.11%），整个抓取过程0.48N（4.34%）

论文链接:

https://arxiv.org/abs/2605.00307

📊 今日趋势

研究方向	论文数量	热度
🤖 VLA/VLM应用	5篇	🔥🔥🔥
🎮 强化学习算法	3篇	🔥🔥🔥
🦾 机器人操控	4篇	🔥🔥
🧠 可解释性/因果	1篇	🔥🔥
📊 数据集/基准	1篇	🔥

💡 核心洞察

车队规模持续学习成为VLA落地关键：Learning While Deploying框架展示如何通过车队部署数据持续改进通才VLA策略，实现95%成功率，标志着从静态预训练向动态持续学习的范式转变
扩散策略与逆强化学习的深度融合：EnergyFlow框架统一生成式动作建模与奖励提取，无需对抗训练即可从扩散策略中恢复专家Q函数，为模仿学习与强化学习的结合开辟新路径
VLA可解释性研究取得突破：Embodied Interpretability工作将因果推断引入VLA分析，提出ISS和NMR指标，能够诊断模型是否依赖虚假相关性而非因果特征，对提升分布外泛化具有重要指导意义
多模态交错推理提升长程规划能力：IVLR框架通过交替文本子目标与视觉关键帧的显式表示，在LIBERO-Long上实现92.4%成功率（相比无trace的37.7%），验证结构化推理对长程任务的关键作用