📚 精选10篇最新论文,涵盖VLA、世界模型、机器人记忆、强化学习等前沿领域
🔥 今日亮点
VLA自适应与先验保持新突破 | 世界模型驱动的精准操控 | 机器人记忆与测试时自适应
📑 论文详情
1️⃣ HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models
关键词: VLA | 世界模型 | 机器人操控 | 自适应控制
核心贡献:
提出HarmoWAM框架,统一预测控制和反应控制,实现泛化移动与精准操作的平衡
世界模型提供时空物理先验,驱动两个互补的动作专家:预测专家利用潜在动力学迭代生成动作,反应专家直接从预测视觉演变推断动作
提出过程自适应门控机制,自动确定两者切换的时机和位置,支持不同阶段任务自适应协调
在6个真实机器人任务上实现强零样本泛化,比SOTA VLA模型和WAM分别提升33%和29%
论文链接:
https://arxiv.org/abs/2605.10942
2️⃣ PriorVLA: Prior-Preserving Adaptation for Vision-Language-Action Models
关键词: VLA | 视觉-语言-动作 | 预训练保持 | 少样本学习
核心贡献:
提出PriorVLA框架,通过保留预训练先验知识实现VLA模型的有效自适应
采用冻结的Prior Expert作为只读先验源,训练Adaptation Expert进行下游任务专业化
Expert Queries捕获场景先验和运动先验,整合到Adaptation Expert中指导自适应
仅更新全量微调25%的参数,在RoboTwin 2.0-Hard上比pi0.5提升11个百分点,10样本情况下ID成功率48%、OOD成功率32%
论文链接:
https://arxiv.org/abs/2605.10925
3️⃣ RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark
关键词: 机器人记忆 | VLA | 长程任务 | 多模态标注
核心贡献:
提出大规模机器人记忆基准,包含26个任务,平均轨迹长度超过1000步,68.9%子任务依赖记忆
利用VLM设计子任务并生成完整轨迹,提供记忆相关标注包括子任务指令和关键帧标注
设计PrediMem双系统VLA,高层VLM规划器管理记忆库,使用预测编码头提高对任务动态的敏感性
支持真实世界评估,为复杂记忆系统研究提供大规模测试平台
论文链接:
https://arxiv.org/abs/2605.10921
4️⃣ Unified Noise Steering for Efficient Human-Guided VLA Adaptation
关键词: VLA | 扩散模型 | 人类反馈 | 噪声空间学习
核心贡献:
提出UniSteer框架,结合人类纠正指导与噪声空间RL,通过近似动作到噪声反演实现高效自适应
给定人类纠正动作,反演冻结的流匹配解码器恢复噪声目标,为噪声演员提供监督指导
同时通过强化学习优化噪声演员,实现人类指导与自主探索的统一
真实世界实验中,在66分钟内将成功率从20%提升至90%,显著优于噪声空间RL和动作空间基线
论文链接:
https://arxiv.org/abs/2605.10821
5️⃣ ALAM: Algebraically Consistent Latent Transitions for Vision-Language-Action Models
关键词: VLA | 潜在动作模型 | 流匹配 | 世界模型
核心贡献:
提出ALAM代数一致潜在动作模型,将无动作视频中的时间关系转化为结构化监督
学习满足组合和反转一致性的潜在转移,鼓励局部可加性转移空间
冻结预训练编码器,将其潜在转移序列作为辅助生成目标,与机器人动作联合生成
在MetaWorld MT50上平均成功率从47.9%提升至85.0%,LIBERO上从94.1%提升至98.1%
论文链接:
https://arxiv.org/abs/2605.10819
6️⃣ VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models
关键词: VLA | 空间感知 | 视觉编码器 | 3D高斯
核心贡献:
提出VEGA框架,直接对齐VLA视觉编码器输出与DINOv2-FiT3D的空间感知特征
在视觉编码器输出层执行对齐,在语言纠缠发生前建立空间感知,提供更可解释的对齐目标
使用轻量级投影器和余弦相似度损失实现对齐,推理时可丢弃,不引入额外计算开销
在仿真基准和真实世界操控任务上持续超越现有隐式空间基线,建立VLA模型空间感知新SOTA
论文链接:
https://arxiv.org/abs/2605.10485
7️⃣ HeteroGenManip: Generalizable Manipulation For Heterogeneous Object Interactions
关键词: 机器人操控 | 泛化学习 | 扩散策略 | 基础模型
核心贡献:
提出HeteroGenManip两阶段框架,解耦初始抓取与复杂交互执行,解决异构物体操控挑战
Foundation-Correspondence-Guided Grasp模块利用结构先验对齐初始接触状态,显著降低抓取姿态不确定性
Multi-Foundation-Model Diffusion Policy将物体路由到类别专业化基础模型,通过双流交叉注意力整合几何信息
仿真任务平均性能提升31%,真实世界4个不同交互类型任务提升36.7%
论文链接:
https://arxiv.org/abs/2605.10201
8️⃣ Data-Asymmetric Latent Imagination and Reranking for 3D Robotic Imitation Learning
关键词: 模仿学习 | 世界模型 | 3D策略 | 动作重排序
核心贡献:
提出DALI-R框架,从混合质量轨迹中进行3D机器人模仿学习,利用次优数据改进决策
学习基于3D点云的潜在世界模型用于想象展开,训练任务完成评分器重排序候选动作块
无需额外高质量演示即可改进决策,支持扩散和高效流匹配策略实例化
在Adroit和MetaWorld基准上,两种3D基础策略平均成功率提升6.8%,推理开销增加不到0.7倍
论文链接:
https://arxiv.org/abs/2605.10166
9️⃣ Plan in Sandbox, Navigate in Open Worlds: Learning Physics-Grounded Abstracted Experience for Embodied Navigation
关键词: 具身导航 | 强化学习 | 物理仿真 | VLM
核心贡献:
提出SAGE框架,在物理基础的语义抽象中而非照片级仿真中学习,模仿人类心智仿真能力
Genesis阶段构建多样化物理约束语义环境,Evolution阶段通过RL提炼经验,Navigation阶段桥接抽象策略与开放世界控制
提出非对称自适应裁剪机制稳定强化学习更新
在A-EQA上实现53.21% LLM-Match成功率,比基线提升9.7%,并成功迁移到物理室内机器人部署
论文链接:
https://arxiv.org/abs/2605.10118
🔟 Retrieve-then-Steer: Online Success Memory for Test-Time Adaptation of Generative VLAs
关键词: VLA | 测试时自适应 | 记忆检索 | 动作生成
核心贡献:
提出Retrieve-then-Steer框架,利用成功测试时经验提升冻结VLA的可靠性
部署期间存储进度校准的成功观察-动作片段到长期记忆,推理时检索状态相关动作块
通过轨迹级一致性过滤不一致候选,聚合成精英动作先验,使用置信度自适应先验引导注入流匹配采样器
实现轻量级非参数化测试时自适应,无需参数更新,在长程和多阶段任务中显著提升任务成功率和闭环稳定性
论文链接:
https://arxiv.org/abs/2605.10094
📊 今日趋势
| 研究方向 | 论文数量 | 热度 |
|---|---|---|
| 🧠 VLA/VLM应用 | 6篇 | 🔥🔥🔥 |
| 🎮 强化学习/自适应 | 2篇 | 🔥🔥 |
| 🌍 世界模型/仿真 | 2篇 | 🔥🔥 |
| 🦾 机器人操控 | 2篇 | 🔥🔥 |
| 🧩 记忆与学习 | 2篇 | 🔥🔥 |
💡 核心洞察
VLA自适应成为研究焦点:今日多篇论文聚焦VLA模型的自适应问题,PriorVLA、UniSteer、VEGA等工作从不同角度(先验保持、人类反馈、空间感知)提升VLA在真实场景的适应能力
世界模型与VLA深度融合:HarmoWAM和ALAM展示了世界模型与VLA结合的新范式,通过物理先验和潜在动作建模实现更精准的机器人控制
测试时自适应受到关注:Retrieve-then-Steer等工作探索在部署阶段利用成功经验提升模型可靠性,为实际机器人部署提供可行方案
3D感知与空间推理持续进步:VEGA、DALI-R、HeteroGenManip等工作在3D几何理解、空间感知对齐方面取得进展,推动机器人感知能力边界
夜雨聆风