📚 精选10篇最新论文,涵盖VLA、扩散策略、强化学习、机器人操控、可解释性等前沿领域
🔥 今日亮点
车队规模VLA持续学习框架 | 扩散策略逆强化学习统一框架 | VLA模型的具身可解释性方法
📑 论文详情
1️⃣ Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies
关键词: VLA | 强化学习 | 车队学习 | 持续学习 | 通才策略
核心贡献:
提出Learning While Deploying (LWD)框架,实现大规模离线到在线强化学习持续训练
结合Distributional Implicit Value Learning (DIVL)与Q-learning via Adjoint Matching (QAM)稳定异构数据学习
在16台双臂机器人车队上验证,涵盖8个真实世界操作任务,平均成功率达95%
长程任务(3-5分钟)获得最大性能提升,验证持续学习的有效性
论文链接:
https://arxiv.org/abs/2605.00416
2️⃣ Recovering Hidden Reward in Diffusion-Based Policies
关键词: 扩散策略 | 逆强化学习 | 能量模型 | 模仿学习 | 策略泛化
核心贡献:
提出EnergyFlow框架,统一生成式动作建模与逆强化学习,通过标量能量函数参数化
证明在最大熵最优条件下,去噪分数匹配学习的score函数可恢复专家软Q函数梯度
约束学习场为保守场可减少假设复杂度,收紧分布外泛化界
在多种操作任务上实现SOTA模仿性能,提取的奖励信号优于对抗式IRL方法
论文链接:
https://arxiv.org/abs/2605.00623
3️⃣ Affordance Agent Harness: Verification-Gated Skill Orchestration
关键词: VLA | 可供性定位 | 技能编排 | 验证机制 | 开放世界
核心贡献:
提出Affordance Agent Harness,统一异构技能的闭环运行时框架,配备证据存储和成本控制
通过Router自适应选择和参数化技能,利用经验记忆为重复类别提供先验
设计可供性专用Verifier,通过自一致性、跨尺度稳定性和证据充分性门控决策
在多个可供性基准上实现更强的准确率-成本帕累托前沿,减少平均技能调用和延迟
论文链接:
https://arxiv.org/abs/2605.00663
4️⃣ Thinking in Text and Images: Interleaved Vision-Language Reasoning Traces for Long-Horizon Robot Manipulation
关键词: VLA | 长程规划 | 多模态推理 | 视觉-语言推理 | 机器人操控
核心贡献:
提出Interleaved Vision-Language Reasoning (IVLR)框架,引入显式中间表示trace
Trace交替文本子目标与视觉关键帧,实现全局语义-几何推理
在LIBERO基准上达到95.5%平均成功率,LIBERO-Long上达92.4%
消融实验显示纯文本trace达62.0%,纯视觉trace达68.4%,交错trace达92.4%
论文链接:
https://arxiv.org/abs/2605.00438
5️⃣ Embodied Interpretability: Linking Causal Understanding to Generalization in Vision-Language-Action Models
关键词: VLA | 可解释性 | 因果推断 | 分布外泛化 | 视觉归因
核心贡献:
提出Interventional Significance Score (ISS),通过干预掩码估计视觉区域对动作预测的因果影响
引入Nuisance Mass Ratio (NMR)标量度量,量化对任务无关特征的归因
证明ISS允许无偏估计,并刻画动作预测误差作为因果影响代理的条件
实验表明NMR可预测泛化行为,ISS比现有可解释性方法提供更忠实的解释
论文链接:
https://arxiv.org/abs/2605.00321
6️⃣ MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation
关键词: 精细操控 | 空间注意力 | 低延迟控制 | 双手操作 | 模仿学习
核心贡献:
提出多阶段空间注意力模块,提取稳定的2D注意力点并联合预测未来注意力序列
引入自监督时序对齐损失,抑制有限数据下的定位漂移,无需关键点标注
在ALOHA双手平台上评估任务成功率、注意力漂移、推理延迟和视觉干扰鲁棒性
在保持低延迟推理的同时,提升定位稳定性和任务性能
论文链接:
https://arxiv.org/abs/2605.00475
7️⃣ Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances
关键词: 移动操作 | 立体视觉 | 空间注意力 | 尺度变化 | 实时控制
核心贡献:
提出基于立体多阶段空间注意力的深度预测学习方法,用于实时移动操作
从立体图像提取任务相关空间注意力点,通过分层循环架构与机器人状态集成
在移动平台上评估刚体放置、关节物体操作和可变形物体交互任务
在随机初始位置和视觉干扰条件下,比模仿学习和VLA基线具有更高鲁棒性和成功率
论文链接:
https://arxiv.org/abs/2605.00471
8️⃣ PrefMoE: Robust Preference Modeling with Mixture-of-Experts Reward Learning
关键词: 偏好学习 | 混合专家 | 奖励学习 | 鲁棒性 | 多目标
核心贡献:
提出PrefMoE框架,使用混合专家模型学习多个专用奖励专家,适应异构偏好监督
采用轨迹级软路由自适应组合专家,捕捉多样化潜在偏好模式
引入负载均衡正则化器防止专家崩溃,稳定训练过程
在D4RL运动基准和MetaWorld操作任务上,比单模型基线提升偏好预测鲁棒性
论文链接:
https://arxiv.org/abs/2605.00384
9️⃣ MiniVLA-Nav v1: A Multi-Scene Simulation Dataset for Language-Conditioned Robot Navigation
关键词: VLA | 语言条件导航 | 仿真数据集 | 对象接近 | 多场景
核心贡献:
提出MiniVLA-Nav v1仿真数据集,支持语言条件对象接近(LCOA)导航任务
涵盖四个照片级真实Isaac Sim环境(办公室、医院、仓库),共1,174个episode
提供同步640x640 RGB图像、度量深度图、实例分割掩码和专家动作标签
支持分布内准确性、模板改写鲁棒性和分布外对象类别评估
论文链接:
https://arxiv.org/abs/2605.00397
🔟 A Model-based Visual Contact Localization and Force Sensing System for Compliant Robotic Grippers
关键词: 软体夹持器 | 视觉力感知 | 接触定位 | 有限元分析 | 模型驱动
核心贡献:
提出基于模型的视觉力感知方法,集成迭代接触定位并泛化到未见对象
从腕部相机RGB-D图像提取结构关键点,定义逆有限元分析模拟参数
深度学习在线3D重建和姿态估计管道动态更新接触位置,对遮挡和未见对象鲁棒
负载阶段平均RMSE为0.23N(2.11%),整个抓取过程0.48N(4.34%)
论文链接:
https://arxiv.org/abs/2605.00307
📊 今日趋势
| 研究方向 | 论文数量 | 热度 |
|---|---|---|
| 🤖 VLA/VLM应用 | 5篇 | 🔥🔥🔥 |
| 🎮 强化学习算法 | 3篇 | 🔥🔥🔥 |
| 🦾 机器人操控 | 4篇 | 🔥🔥 |
| 🧠 可解释性/因果 | 1篇 | 🔥🔥 |
| 📊 数据集/基准 | 1篇 | 🔥 |
💡 核心洞察
车队规模持续学习成为VLA落地关键:Learning While Deploying框架展示如何通过车队部署数据持续改进通才VLA策略,实现95%成功率,标志着从静态预训练向动态持续学习的范式转变
扩散策略与逆强化学习的深度融合:EnergyFlow框架统一生成式动作建模与奖励提取,无需对抗训练即可从扩散策略中恢复专家Q函数,为模仿学习与强化学习的结合开辟新路径
VLA可解释性研究取得突破:Embodied Interpretability工作将因果推断引入VLA分析,提出ISS和NMR指标,能够诊断模型是否依赖虚假相关性而非因果特征,对提升分布外泛化具有重要指导意义
多模态交错推理提升长程规划能力:IVLR框架通过交替文本子目标与视觉关键帧的显式表示,在LIBERO-Long上实现92.4%成功率(相比无trace的37.7%),验证结构化推理对长程任务的关键作用
夜雨聆风