乐于分享
好东西不私藏

�� AI具身智能日报 | 2026年5月6日

�� AI具身智能日报 | 2026年5月6日

📚 精选10篇最新论文,涵盖VLA、世界模型、机器人感知、强化学习等前沿领域


🔥 今日亮点

VLA模型物理隐式推理强化 | 低成本开源触觉感知方案 | 训练-free开放词汇占用预测


📑 论文详情

1️⃣ LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models

关键词: VLA | 强化学习 | 物理推理 | 视觉-语言-动作模型

核心贡献:

  • 提出LaST-R1统一VLA框架,在动作执行前引入物理动态隐式思维链(CoT)推理

  • 提出Latent-to-Action Policy Optimization (LAPO)算法,联合优化隐式推理过程和动作生成

  • 解决现有方法中显式语言推理的延迟和离散化问题,以及静态模仿学习的适应性局限

  • 通过桥接推理与控制,提升VLA模型在复杂机器人操控中的自适应能力和泛化性

论文链接:

https://arxiv.org/abs/2604.28192


2️⃣ OmniRobotHome: A Multi-Camera Platform for Real-Time Multiadic Human-Robot Interaction

关键词: 人机交互 | 多机器人协同 | 实时感知 | 3D跟踪

核心贡献:

  • 首个房间尺度住宅平台,统一广域实时3D人体和物体感知与多机器人协调执行

  • 部署48个硬件同步RGB相机,实现无标记、抗遮挡的多人体和物体跟踪

  • 支持实时场景状态感知下的双臂Franka机器人操作

  • 解决多参与者(HRI)场景中的持续遮挡和快速状态变化难题

论文链接:

https://arxiv.org/abs/2604.28197


3️⃣ FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction

关键词: 占用预测 | 开放词汇 | 训练-free | 语义SLAM

核心贡献:

  • 首个无需训练的开放词汇占用预测框架,仅需单目或RGB-D序列

  • 四层架构:SLAM位姿估计、3D高斯地图构建、VLM语义关联、概率高斯到占用投影

  • 在EmbodiedOcc-ScanNet上IoU和mIoU提升超过2倍

  • 零样本迁移到新环境,同时超越监督和非监督基线

论文链接:

https://arxiv.org/abs/2604.28115


4️⃣ RopeDreamer: A Kinematic Recurrent State Space Model for Dynamics of Flexible Deformable Linear Objects

关键词: 可变形物体 | 状态空间模型 | 动力学预测 | 绳缆操作

核心贡献:

  • 提出结合循环状态空间模型与四元数运动链表示的潜在动力学框架

  • 将DLO编码为相对旋转序列而非独立笛卡尔位置,保持拓扑一致性

  • 双解码器架构解耦状态重建与未来状态预测,强制学习变形物理

  • 相比SOTA基线,50步开环预测误差降低40.52%,推理时间减少31.17%

论文链接:

https://arxiv.org/abs/2604.28161


5️⃣ FlexiTac: A Low-Cost, Open-Source, Scalable Tactile Sensing Solution for Robotic Systems

关键词: 触觉感知 | 开源硬件 | 机器人操控 | 跨具身迁移

核心贡献:

  • 低成本、开源、可扩展的压阻式触觉传感解决方案,即插即用模块化设计

  • 三层层压结构(FPC-Velostat-FPC)直接集成电极图案,提升制造吞吐量和重复性

  • 读取电路使用低成本组件,通过串口通信以100Hz速率传输触觉信号

  • 支持3D视觉-触觉融合、跨具身技能迁移和GPU并行触觉仿真

论文链接:

https://arxiv.org/abs/2604.28156


6️⃣ MotuBrain: An Advanced World Action Model for Robot Control

关键词: 世界动作模型 | 多模态生成 | 视频预测 | 统一策略

核心贡献:

  • 统一多模态生成模型,在UniDiffuser框架下联合建模视频和动作

  • 三流Mixture-of-Transformers架构,支持多种推理模式

  • 单一模型支持策略学习、世界建模、视频生成、逆动力学和联合视频-动作预测

  • 为VLA模型提供更细粒度的世界动态建模能力,弥补语义泛化与物理建模间的差距

论文链接:

https://arxiv.org/abs/2604.27792


7️⃣ GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment

关键词: 端到端自动驾驶 | 3D高斯溅射 | 强化学习 | 轨迹规划

核心贡献:

  • 利用3DGS构建可微物理奖励塑造的端到端驾驶策略优化框架

  • 集成流匹配轨迹预测器,支持多模态轨迹探查和预期奖励评估

  • 在IL和RL之间建立双向知识交换,提供即时密集反馈替代稀疏灾难事件

  • 在重建的nuScenes数据集上闭环实验中超越现有基于仿真的RL驾驶方法

论文链接:

https://arxiv.org/abs/2604.28111


8️⃣ Flying by Inference: Active Inference World Models for Adaptive UAV Swarms

关键词: 无人机集群 | 主动推理 | 世界模型 | 轨迹规划

核心贡献:

  • 专家引导的主动推理启发框架,将多无人机轨迹设计转化为分层概率推理问题

  • 离线阶段使用遗传算法生成专家演示,抽象为任务、路径和运动三层字典

  • 在线阶段通过形成后验信念和最小化KL散度异常指标评估候选动作

  • 保持专家级规划结构,同时比改进的Q学习产生更平滑稳定的行为

论文链接:

https://arxiv.org/abs/2604.27935


9️⃣ SASI: Leveraging Sub-Action Semantics for Robust Early Action Recognition in Human-Robot Interaction

关键词: 人机交互 | 早期动作识别 | 子动作语义 | 图卷积网络

核心贡献:

  • 提出SASI框架,整合子动作语义进行时空特征融合,支持实时早期动作识别

  • 利用分割模型与传统基于骨骼的图卷积网络结合,捕获细粒度子动作语义和整体空间上下文

  • 在BABEL数据集上实现29Hz实时推理,超越传统方法的动作识别准确率

  • 在理解部分动作序列方面表现出色,支持主动无缝人机交互

论文链接:

https://arxiv.org/abs/2604.27508


🔟 Function-based Parametric Co-Design Optimization of Dexterous Hands

关键词: 灵巧手设计 | 参数化优化 | 抓取稳定性 | 跨具身控制

核心贡献:

  • 统一参数化框架,将手掌结构、手指运动学、指尖几何和细尺度表面曲率整合到单一设计空间

  • 通过参数化表面变形核引入精细几何特征,直接影响接触交互

  • 在仿真和真实动态场景的抓取稳定性任务中验证设计优化

  • 产生仿真和制造就绪的手部模型,支持灵巧手协同设计优化和跨具身策略训练

论文链接:

https://arxiv.org/abs/2604.27557


📊 今日趋势

研究方向 论文数量 热度
🧠 VLA/世界模型 3篇 🔥🔥🔥
🤖 机器人感知/操控 3篇 🔥🔥🔥
🎮 强化学习/决策 2篇 🔥🔥
🦾 灵巧操作/HRI 2篇 🔥🔥

💡 核心洞察

  1. VLA模型进入物理推理新阶段:LaST-R1通过隐式CoT推理优化物理动态建模,MotuBrain提出统一世界动作模型,显示VLA正从静态模仿学习向物理-aware推理演进

  2. 感知系统向多模态、低成本方向演进:FlexiTac提供开源触觉感知方案,FreeOcc实现训练-free占用预测,表明感知硬件和算法正朝着更实用、更可扩展的方向发展

  3. 强化学习在自动驾驶和机器人中持续深化:GSDrive利用3DGS进行可微奖励塑造,RopeDreamer通过状态空间模型建模可变形物体动力学,显示RL在复杂物理交互中的应用日趋成熟

  4. 人机协同进入多参与者新范式:OmniRobotHome首次实现房间尺度多adic人机协作,SASI支持早期动作识别,表明HRI正从二元交互向更复杂的多智能体协同演进