�� AI具身智能日报 | 2026年5月6日
📚 精选10篇最新论文,涵盖VLA、世界模型、机器人感知、强化学习等前沿领域
🔥 今日亮点
VLA模型物理隐式推理强化 | 低成本开源触觉感知方案 | 训练-free开放词汇占用预测
📑 论文详情
1️⃣ LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models
关键词: VLA | 强化学习 | 物理推理 | 视觉-语言-动作模型
核心贡献:
-
提出LaST-R1统一VLA框架,在动作执行前引入物理动态隐式思维链(CoT)推理
-
提出Latent-to-Action Policy Optimization (LAPO)算法,联合优化隐式推理过程和动作生成
-
解决现有方法中显式语言推理的延迟和离散化问题,以及静态模仿学习的适应性局限
-
通过桥接推理与控制,提升VLA模型在复杂机器人操控中的自适应能力和泛化性
论文链接:
https://arxiv.org/abs/2604.28192
2️⃣ OmniRobotHome: A Multi-Camera Platform for Real-Time Multiadic Human-Robot Interaction
关键词: 人机交互 | 多机器人协同 | 实时感知 | 3D跟踪
核心贡献:
-
首个房间尺度住宅平台,统一广域实时3D人体和物体感知与多机器人协调执行
-
部署48个硬件同步RGB相机,实现无标记、抗遮挡的多人体和物体跟踪
-
支持实时场景状态感知下的双臂Franka机器人操作
-
解决多参与者(HRI)场景中的持续遮挡和快速状态变化难题
论文链接:
https://arxiv.org/abs/2604.28197
3️⃣ FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction
关键词: 占用预测 | 开放词汇 | 训练-free | 语义SLAM
核心贡献:
-
首个无需训练的开放词汇占用预测框架,仅需单目或RGB-D序列
-
四层架构:SLAM位姿估计、3D高斯地图构建、VLM语义关联、概率高斯到占用投影
-
在EmbodiedOcc-ScanNet上IoU和mIoU提升超过2倍
-
零样本迁移到新环境,同时超越监督和非监督基线
论文链接:
https://arxiv.org/abs/2604.28115
4️⃣ RopeDreamer: A Kinematic Recurrent State Space Model for Dynamics of Flexible Deformable Linear Objects
关键词: 可变形物体 | 状态空间模型 | 动力学预测 | 绳缆操作
核心贡献:
-
提出结合循环状态空间模型与四元数运动链表示的潜在动力学框架
-
将DLO编码为相对旋转序列而非独立笛卡尔位置,保持拓扑一致性
-
双解码器架构解耦状态重建与未来状态预测,强制学习变形物理
-
相比SOTA基线,50步开环预测误差降低40.52%,推理时间减少31.17%
论文链接:
https://arxiv.org/abs/2604.28161
5️⃣ FlexiTac: A Low-Cost, Open-Source, Scalable Tactile Sensing Solution for Robotic Systems
关键词: 触觉感知 | 开源硬件 | 机器人操控 | 跨具身迁移
核心贡献:
-
低成本、开源、可扩展的压阻式触觉传感解决方案,即插即用模块化设计
-
三层层压结构(FPC-Velostat-FPC)直接集成电极图案,提升制造吞吐量和重复性
-
读取电路使用低成本组件,通过串口通信以100Hz速率传输触觉信号
-
支持3D视觉-触觉融合、跨具身技能迁移和GPU并行触觉仿真
论文链接:
https://arxiv.org/abs/2604.28156
6️⃣ MotuBrain: An Advanced World Action Model for Robot Control
关键词: 世界动作模型 | 多模态生成 | 视频预测 | 统一策略
核心贡献:
-
统一多模态生成模型,在UniDiffuser框架下联合建模视频和动作
-
三流Mixture-of-Transformers架构,支持多种推理模式
-
单一模型支持策略学习、世界建模、视频生成、逆动力学和联合视频-动作预测
-
为VLA模型提供更细粒度的世界动态建模能力,弥补语义泛化与物理建模间的差距
论文链接:
https://arxiv.org/abs/2604.27792
7️⃣ GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment
关键词: 端到端自动驾驶 | 3D高斯溅射 | 强化学习 | 轨迹规划
核心贡献:
-
利用3DGS构建可微物理奖励塑造的端到端驾驶策略优化框架
-
集成流匹配轨迹预测器,支持多模态轨迹探查和预期奖励评估
-
在IL和RL之间建立双向知识交换,提供即时密集反馈替代稀疏灾难事件
-
在重建的nuScenes数据集上闭环实验中超越现有基于仿真的RL驾驶方法
论文链接:
https://arxiv.org/abs/2604.28111
8️⃣ Flying by Inference: Active Inference World Models for Adaptive UAV Swarms
关键词: 无人机集群 | 主动推理 | 世界模型 | 轨迹规划
核心贡献:
-
专家引导的主动推理启发框架,将多无人机轨迹设计转化为分层概率推理问题
-
离线阶段使用遗传算法生成专家演示,抽象为任务、路径和运动三层字典
-
在线阶段通过形成后验信念和最小化KL散度异常指标评估候选动作
-
保持专家级规划结构,同时比改进的Q学习产生更平滑稳定的行为
论文链接:
https://arxiv.org/abs/2604.27935
9️⃣ SASI: Leveraging Sub-Action Semantics for Robust Early Action Recognition in Human-Robot Interaction
关键词: 人机交互 | 早期动作识别 | 子动作语义 | 图卷积网络
核心贡献:
-
提出SASI框架,整合子动作语义进行时空特征融合,支持实时早期动作识别
-
利用分割模型与传统基于骨骼的图卷积网络结合,捕获细粒度子动作语义和整体空间上下文
-
在BABEL数据集上实现29Hz实时推理,超越传统方法的动作识别准确率
-
在理解部分动作序列方面表现出色,支持主动无缝人机交互
论文链接:
https://arxiv.org/abs/2604.27508
🔟 Function-based Parametric Co-Design Optimization of Dexterous Hands
关键词: 灵巧手设计 | 参数化优化 | 抓取稳定性 | 跨具身控制
核心贡献:
-
统一参数化框架,将手掌结构、手指运动学、指尖几何和细尺度表面曲率整合到单一设计空间
-
通过参数化表面变形核引入精细几何特征,直接影响接触交互
-
在仿真和真实动态场景的抓取稳定性任务中验证设计优化
-
产生仿真和制造就绪的手部模型,支持灵巧手协同设计优化和跨具身策略训练
论文链接:
https://arxiv.org/abs/2604.27557
📊 今日趋势
| 研究方向 | 论文数量 | 热度 |
|---|---|---|
| 🧠 VLA/世界模型 | 3篇 | 🔥🔥🔥 |
| 🤖 机器人感知/操控 | 3篇 | 🔥🔥🔥 |
| 🎮 强化学习/决策 | 2篇 | 🔥🔥 |
| 🦾 灵巧操作/HRI | 2篇 | 🔥🔥 |
💡 核心洞察
-
VLA模型进入物理推理新阶段:LaST-R1通过隐式CoT推理优化物理动态建模,MotuBrain提出统一世界动作模型,显示VLA正从静态模仿学习向物理-aware推理演进
-
感知系统向多模态、低成本方向演进:FlexiTac提供开源触觉感知方案,FreeOcc实现训练-free占用预测,表明感知硬件和算法正朝着更实用、更可扩展的方向发展
-
强化学习在自动驾驶和机器人中持续深化:GSDrive利用3DGS进行可微奖励塑造,RopeDreamer通过状态空间模型建模可变形物体动力学,显示RL在复杂物理交互中的应用日趋成熟
-
人机协同进入多参与者新范式:OmniRobotHome首次实现房间尺度多adic人机协作,SASI支持早期动作识别,表明HRI正从二元交互向更复杂的多智能体协同演进
夜雨聆风