�� AI具身智能日报 | 2026年5月14日

📚 精选10篇最新论文，涵盖VLA、世界模型、机器人记忆、强化学习等前沿领域

🔥 今日亮点

VLA自适应与先验保持新突破 | 世界模型驱动的精准操控 | 机器人记忆与测试时自适应

📑 论文详情

1️⃣ HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models

关键词: VLA | 世界模型 | 机器人操控 | 自适应控制

核心贡献:

提出HarmoWAM框架，统一预测控制和反应控制，实现泛化移动与精准操作的平衡
世界模型提供时空物理先验，驱动两个互补的动作专家：预测专家利用潜在动力学迭代生成动作，反应专家直接从预测视觉演变推断动作
提出过程自适应门控机制，自动确定两者切换的时机和位置，支持不同阶段任务自适应协调
在6个真实机器人任务上实现强零样本泛化，比SOTA VLA模型和WAM分别提升33%和29%

论文链接:

https://arxiv.org/abs/2605.10942

2️⃣ PriorVLA: Prior-Preserving Adaptation for Vision-Language-Action Models

关键词: VLA | 视觉-语言-动作 | 预训练保持 | 少样本学习

核心贡献:

提出PriorVLA框架，通过保留预训练先验知识实现VLA模型的有效自适应
采用冻结的Prior Expert作为只读先验源，训练Adaptation Expert进行下游任务专业化
Expert Queries捕获场景先验和运动先验，整合到Adaptation Expert中指导自适应
仅更新全量微调25%的参数，在RoboTwin 2.0-Hard上比pi0.5提升11个百分点，10样本情况下ID成功率48%、OOD成功率32%

论文链接:

https://arxiv.org/abs/2605.10925

3️⃣ RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

关键词: 机器人记忆 | VLA | 长程任务 | 多模态标注

核心贡献:

提出大规模机器人记忆基准，包含26个任务，平均轨迹长度超过1000步，68.9%子任务依赖记忆
利用VLM设计子任务并生成完整轨迹，提供记忆相关标注包括子任务指令和关键帧标注
设计PrediMem双系统VLA，高层VLM规划器管理记忆库，使用预测编码头提高对任务动态的敏感性
支持真实世界评估，为复杂记忆系统研究提供大规模测试平台

论文链接:

https://arxiv.org/abs/2605.10921

4️⃣ Unified Noise Steering for Efficient Human-Guided VLA Adaptation

关键词: VLA | 扩散模型 | 人类反馈 | 噪声空间学习

核心贡献:

提出UniSteer框架，结合人类纠正指导与噪声空间RL，通过近似动作到噪声反演实现高效自适应
给定人类纠正动作，反演冻结的流匹配解码器恢复噪声目标，为噪声演员提供监督指导
同时通过强化学习优化噪声演员，实现人类指导与自主探索的统一
真实世界实验中，在66分钟内将成功率从20%提升至90%，显著优于噪声空间RL和动作空间基线

论文链接:

https://arxiv.org/abs/2605.10821

5️⃣ ALAM: Algebraically Consistent Latent Transitions for Vision-Language-Action Models

关键词: VLA | 潜在动作模型 | 流匹配 | 世界模型

核心贡献:

提出ALAM代数一致潜在动作模型，将无动作视频中的时间关系转化为结构化监督
学习满足组合和反转一致性的潜在转移，鼓励局部可加性转移空间
冻结预训练编码器，将其潜在转移序列作为辅助生成目标，与机器人动作联合生成
在MetaWorld MT50上平均成功率从47.9%提升至85.0%，LIBERO上从94.1%提升至98.1%

论文链接:

https://arxiv.org/abs/2605.10819

6️⃣ VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models

关键词: VLA | 空间感知 | 视觉编码器 | 3D高斯

核心贡献:

提出VEGA框架，直接对齐VLA视觉编码器输出与DINOv2-FiT3D的空间感知特征
在视觉编码器输出层执行对齐，在语言纠缠发生前建立空间感知，提供更可解释的对齐目标
使用轻量级投影器和余弦相似度损失实现对齐，推理时可丢弃，不引入额外计算开销
在仿真基准和真实世界操控任务上持续超越现有隐式空间基线，建立VLA模型空间感知新SOTA

论文链接:

https://arxiv.org/abs/2605.10485

7️⃣ HeteroGenManip: Generalizable Manipulation For Heterogeneous Object Interactions

关键词: 机器人操控 | 泛化学习 | 扩散策略 | 基础模型

核心贡献:

提出HeteroGenManip两阶段框架，解耦初始抓取与复杂交互执行，解决异构物体操控挑战
Foundation-Correspondence-Guided Grasp模块利用结构先验对齐初始接触状态，显著降低抓取姿态不确定性
Multi-Foundation-Model Diffusion Policy将物体路由到类别专业化基础模型，通过双流交叉注意力整合几何信息
仿真任务平均性能提升31%，真实世界4个不同交互类型任务提升36.7%

论文链接:

https://arxiv.org/abs/2605.10201

8️⃣ Data-Asymmetric Latent Imagination and Reranking for 3D Robotic Imitation Learning

关键词: 模仿学习 | 世界模型 | 3D策略 | 动作重排序

核心贡献:

提出DALI-R框架，从混合质量轨迹中进行3D机器人模仿学习，利用次优数据改进决策
学习基于3D点云的潜在世界模型用于想象展开，训练任务完成评分器重排序候选动作块
无需额外高质量演示即可改进决策，支持扩散和高效流匹配策略实例化
在Adroit和MetaWorld基准上，两种3D基础策略平均成功率提升6.8%，推理开销增加不到0.7倍

论文链接:

https://arxiv.org/abs/2605.10166

9️⃣ Plan in Sandbox, Navigate in Open Worlds: Learning Physics-Grounded Abstracted Experience for Embodied Navigation

关键词: 具身导航 | 强化学习 | 物理仿真 | VLM

核心贡献:

提出SAGE框架，在物理基础的语义抽象中而非照片级仿真中学习，模仿人类心智仿真能力
Genesis阶段构建多样化物理约束语义环境，Evolution阶段通过RL提炼经验，Navigation阶段桥接抽象策略与开放世界控制
提出非对称自适应裁剪机制稳定强化学习更新
在A-EQA上实现53.21% LLM-Match成功率，比基线提升9.7%，并成功迁移到物理室内机器人部署

论文链接:

https://arxiv.org/abs/2605.10118

🔟 Retrieve-then-Steer: Online Success Memory for Test-Time Adaptation of Generative VLAs

关键词: VLA | 测试时自适应 | 记忆检索 | 动作生成

核心贡献:

提出Retrieve-then-Steer框架，利用成功测试时经验提升冻结VLA的可靠性
部署期间存储进度校准的成功观察-动作片段到长期记忆，推理时检索状态相关动作块
通过轨迹级一致性过滤不一致候选，聚合成精英动作先验，使用置信度自适应先验引导注入流匹配采样器
实现轻量级非参数化测试时自适应，无需参数更新，在长程和多阶段任务中显著提升任务成功率和闭环稳定性

论文链接:

https://arxiv.org/abs/2605.10094

📊 今日趋势

研究方向	论文数量	热度
🧠 VLA/VLM应用	6篇	🔥🔥🔥
🎮 强化学习/自适应	2篇	🔥🔥
🌍 世界模型/仿真	2篇	🔥🔥
🦾 机器人操控	2篇	🔥🔥
🧩 记忆与学习	2篇	🔥🔥

💡 核心洞察

VLA自适应成为研究焦点：今日多篇论文聚焦VLA模型的自适应问题，PriorVLA、UniSteer、VEGA等工作从不同角度（先验保持、人类反馈、空间感知）提升VLA在真实场景的适应能力
世界模型与VLA深度融合：HarmoWAM和ALAM展示了世界模型与VLA结合的新范式，通过物理先验和潜在动作建模实现更精准的机器人控制
测试时自适应受到关注：Retrieve-then-Steer等工作探索在部署阶段利用成功经验提升模型可靠性，为实际机器人部署提供可行方案
3D感知与空间推理持续进步：VEGA、DALI-R、HeteroGenManip等工作在3D几何理解、空间感知对齐方面取得进展，推动机器人感知能力边界