乐于分享
好东西不私藏

�� AI具身智能日报 | 2026年4月24日

�� AI具身智能日报 | 2026年4月24日

📚 精选10篇最新论文,涵盖VLA、世界模型、人形机器人、强化学习等前沿领域


🔥 今日亮点

ResVLA残差扩散桥接VLA策略 | 人机协同世界模型后训练框架 | 人形机器人失重状态学习新突破


📑 论文详情

1️⃣ VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis

关键词: VLA | 视角鲁棒性 | 视频扩散模型 | 机器人操控

核心贡献:

  • 提出VistaBot框架,结合前馈几何模型与视频扩散模型实现视角鲁棒的闭环操控,无需测试时相机标定

  • 包含三大组件:4D几何估计、视角合成潜在特征提取、潜在动作学习

  • 提出View Generalization Score (VGS)新指标,全面评估跨视角泛化能力

  • 在ACT和π0策略上分别实现2.79倍和2.63倍的VGS提升,已被ICRA 2026接收

论文链接:

https://arxiv.org/abs/2604.21914


2️⃣ Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training

关键词: 世界模型 | 人机协同 | 后训练 | 机器人策略优化

核心贡献:

  • 提出Hi-WM框架,将学习到的世界模型作为可重用的纠错基底,无需真实机器人执行即可进行策略后训练

  • 支持人在回路中直接在世界模型内干预,提供短期纠错动作,缓存中间状态支持回滚和分支

  • 在三个真实世界操控任务上验证,相比基线策略平均提升37.9个百分点成功率

  • 世界模型评估与真实世界性能高度相关(r=0.953),可作为可靠的策略评估平台

论文链接:

https://arxiv.org/abs/2604.21741


3️⃣ From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

关键词: VLA | 残差扩散 | 频谱分解 | 生成式策略

核心贡献:

  • 提出ResVLA架构,将生成式VLA策略范式从”从噪声生成”转变为”从意图细化”

  • 利用频谱分析将控制解耦为确定性低频锚点和随机性高频残差

  • 通过残差扩散桥接专注于局部动态细化,实现更强的语言与机器人本体鲁棒性

  • 在仿真和真实世界实验中均展现出更快的收敛速度和更强的泛化能力

论文链接:

https://arxiv.org/abs/2604.21391


4️⃣ X2-N: A Transformable Wheel-legged Humanoid Robot with Dual-mode Locomotion and Manipulation

关键词: 人形机器人 | 轮腿变换 | 全身控制 | 强化学习

核心贡献:

  • 提出X2-N高自由度可变形机器人,可在人形和轮腿形态间无缝变换

  • 设计基于RL的全身控制框架,支持混合 locomotion、形态变换和操控的统一控制

  • 验证多种挑战性任务:动态滑行动作、楼梯攀爬、包裹递送等

  • 展现出高运动效率、强地形适应性和稳定的loco-manipulation性能

论文链接:

https://arxiv.org/abs/2604.21541


5️⃣ A Deployable Embodied Vision-Language Navigation System with Hierarchical Cognition

关键词: VLN | 视觉-语言导航 | 分层认知 | 边缘部署

核心贡献:

  • 提出可部署的具身VLN系统,在资源受限硬件上实现高效率和强推理能力

  • 解耦为三个异步模块:实时感知模块、记忆整合模块、推理决策模块

  • 构建认知记忆图编码场景信息,分解为子图支持VLM推理

  • 将探索问题建模为上下文感知加权旅行修理工问题(WTRP),最小化视点加权等待时间

论文链接:

https://arxiv.org/abs/2604.21363


6️⃣ RPG: Robust Policy Gating for Smooth Multi-Skill Transitions in Humanoid Fighting

关键词: 人形机器人 | 多技能切换 | 模仿学习 | 运动控制

核心贡献:

  • 提出RPG混合专家策略框架,实现人形机器人流畅稳定的多技能切换

  • 引入动作过渡随机化和时间随机化,训练统一策略生成敏捷格斗动作

  • 设计控制管线集成行走/奔跑与格斗技能,支持任意时长的类人长时间格斗

  • 在Unitree G1机器人上实现真实世界部署验证,展现强鲁棒性和适用性

论文链接:

https://arxiv.org/abs/2604.21355


7️⃣ Learn Weightlessness: Imitate Non-Self-Stabilizing Motions on Humanoid Robot

关键词: 人形机器人 | 失重状态 | 环境交互 | 模仿学习

核心贡献:

  • 提出Weightlessness Mechanism (WM)方法,实现非自稳定(NSS)运动的类人环境交互

  • 设计失重状态自动标注策略,动态确定关节放松程度以实现有效环境接触

  • 在三种代表性NSS任务验证:坐椅子、躺床铺、靠墙支撑

  • 在Unitree G1上实现单动作演示训练,无需任务特定调参即可泛化到多样环境配置

论文链接:

https://arxiv.org/abs/2604.21351


8️⃣ Reasoning About Traversability: Language-Guided Off-Road 3D Trajectory Planning

关键词: VLM | 越野驾驶 | 轨迹规划 | 偏好优化

核心贡献:

  • 提出语言精炼框架,将弱对齐的标注重构为动作对齐对,使VLM直接从单张图像生成3D轨迹

  • 引入偏好优化策略,构建几何感知困难负样本,显式惩罚与高程轮廓不一致的轨迹

  • 提出越野特定指标量化可通行性合规性和高程一致性

  • 在ORAD-3D基准上平均轨迹误差降至0.97m,可通行性合规提升至0.644

论文链接:

https://arxiv.org/abs/2604.21249


9️⃣ How VLAs (Really) Work In Open-World Environments

关键词: VLA | 开放世界 | 安全性评估 | 鲁棒性分析

核心贡献:

  • 对BEHAVIOR1K基准上的SOTA VLA模型进行深度分析,评估鲁棒性、安全性和任务意识

  • 指出当前仅以成功率或部分分数评估可能夸大性能,掩盖核心挑战

  • 提出捕捉安全违规的评估协议,更好地衡量复杂交互场景中的真实性能

  • 揭示现有VLA在可复制性、一致性、安全操作方面的局限性,指导未来研究

论文链接:

https://arxiv.org/abs/2604.21192


🔟 Task-specific Subnetwork Discovery in Reinforcement Learning for Autonomous Underwater Navigation

关键词: 多任务RL | 子网络发现 | 可解释性 | 水下机器人

核心贡献:

  • 分析预训练多任务RL网络的内部结构,识别和比较负责不同物种导航的任务特定子网络

  • 发现网络仅使用约1.5%权重区分任务,其中85%连接输入层上下文变量到下一隐藏层

  • 揭示上下文变量在相关任务多任务学习中的重要性

  • 为高效模型编辑、迁移学习和持续学习提供共享与专用网络组件的洞察

论文链接:

https://arxiv.org/abs/2604.21640


📊 今日趋势

研究方向 论文数量 热度
🤖 人形机器人/全身控制 3篇 🔥🔥🔥
🧠 VLA/VLM应用 4篇 🔥🔥🔥
🎮 强化学习算法 1篇 🔥🔥
🌍 世界模型/仿真 1篇 🔥🔥
🗺️ 视觉-语言导航 1篇 🔥🔥

💡 核心洞察

  1. VLA范式革新加速:ResVLA通过残差扩散桥接将”从噪声生成”转变为”从意图细化”,VistaBot解决视角鲁棒性问题,VLA领域正经历方法论层面的创新突破

  2. 世界模型进入实用化阶段:Hi-WM将世界模型作为可重用的纠错基底,支持人在回路中高效后训练,展示世界模型从”生成器”到”评估器”再到”纠错基底”的角色演进

  3. 人形机器人技能边界持续拓展:从失重状态学习到多技能格斗切换,再到轮腿变换,人形机器人在环境适应性、动作多样性和稳定性方面取得显著进展

  4. 开放世界部署挑战凸显:How VLAs Work研究揭示当前评估指标可能夸大性能,安全性和鲁棒性评估成为真实部署前必须解决的关键问题