�� AI具身智能日报 | 2026年5月6日-夜雨聆风

�� AI具身智能日报 | 2026年5月6日

📚 精选10篇最新论文，涵盖VLA、世界模型、机器人感知、强化学习等前沿领域

🔥 今日亮点

VLA模型物理隐式推理强化 | 低成本开源触觉感知方案 | 训练-free开放词汇占用预测

📑 论文详情

1️⃣ LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models

关键词: VLA | 强化学习 | 物理推理 | 视觉-语言-动作模型

核心贡献:

提出LaST-R1统一VLA框架，在动作执行前引入物理动态隐式思维链(CoT)推理
提出Latent-to-Action Policy Optimization (LAPO)算法，联合优化隐式推理过程和动作生成
解决现有方法中显式语言推理的延迟和离散化问题，以及静态模仿学习的适应性局限
通过桥接推理与控制，提升VLA模型在复杂机器人操控中的自适应能力和泛化性

论文链接:

https://arxiv.org/abs/2604.28192

2️⃣ OmniRobotHome: A Multi-Camera Platform for Real-Time Multiadic Human-Robot Interaction

关键词: 人机交互 | 多机器人协同 | 实时感知 | 3D跟踪

核心贡献:

首个房间尺度住宅平台，统一广域实时3D人体和物体感知与多机器人协调执行
部署48个硬件同步RGB相机，实现无标记、抗遮挡的多人体和物体跟踪
支持实时场景状态感知下的双臂Franka机器人操作
解决多参与者(HRI)场景中的持续遮挡和快速状态变化难题

论文链接:

https://arxiv.org/abs/2604.28197

3️⃣ FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction

关键词: 占用预测 | 开放词汇 | 训练-free | 语义SLAM

核心贡献:

首个无需训练的开放词汇占用预测框架，仅需单目或RGB-D序列
四层架构：SLAM位姿估计、3D高斯地图构建、VLM语义关联、概率高斯到占用投影
在EmbodiedOcc-ScanNet上IoU和mIoU提升超过2倍
零样本迁移到新环境，同时超越监督和非监督基线

论文链接:

https://arxiv.org/abs/2604.28115

4️⃣ RopeDreamer: A Kinematic Recurrent State Space Model for Dynamics of Flexible Deformable Linear Objects

关键词: 可变形物体 | 状态空间模型 | 动力学预测 | 绳缆操作

核心贡献:

提出结合循环状态空间模型与四元数运动链表示的潜在动力学框架
将DLO编码为相对旋转序列而非独立笛卡尔位置，保持拓扑一致性
双解码器架构解耦状态重建与未来状态预测，强制学习变形物理
相比SOTA基线，50步开环预测误差降低40.52%，推理时间减少31.17%

论文链接:

https://arxiv.org/abs/2604.28161

5️⃣ FlexiTac: A Low-Cost, Open-Source, Scalable Tactile Sensing Solution for Robotic Systems

关键词: 触觉感知 | 开源硬件 | 机器人操控 | 跨具身迁移

核心贡献:

低成本、开源、可扩展的压阻式触觉传感解决方案，即插即用模块化设计
三层层压结构(FPC-Velostat-FPC)直接集成电极图案，提升制造吞吐量和重复性
读取电路使用低成本组件，通过串口通信以100Hz速率传输触觉信号
支持3D视觉-触觉融合、跨具身技能迁移和GPU并行触觉仿真

论文链接:

https://arxiv.org/abs/2604.28156

6️⃣ MotuBrain: An Advanced World Action Model for Robot Control

关键词: 世界动作模型 | 多模态生成 | 视频预测 | 统一策略

核心贡献:

统一多模态生成模型，在UniDiffuser框架下联合建模视频和动作
三流Mixture-of-Transformers架构，支持多种推理模式
单一模型支持策略学习、世界建模、视频生成、逆动力学和联合视频-动作预测
为VLA模型提供更细粒度的世界动态建模能力，弥补语义泛化与物理建模间的差距

论文链接:

https://arxiv.org/abs/2604.27792

7️⃣ GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment

关键词: 端到端自动驾驶 | 3D高斯溅射 | 强化学习 | 轨迹规划

核心贡献:

利用3DGS构建可微物理奖励塑造的端到端驾驶策略优化框架
集成流匹配轨迹预测器，支持多模态轨迹探查和预期奖励评估
在IL和RL之间建立双向知识交换，提供即时密集反馈替代稀疏灾难事件
在重建的nuScenes数据集上闭环实验中超越现有基于仿真的RL驾驶方法

论文链接:

https://arxiv.org/abs/2604.28111

8️⃣ Flying by Inference: Active Inference World Models for Adaptive UAV Swarms

关键词: 无人机集群 | 主动推理 | 世界模型 | 轨迹规划

核心贡献:

专家引导的主动推理启发框架，将多无人机轨迹设计转化为分层概率推理问题
离线阶段使用遗传算法生成专家演示，抽象为任务、路径和运动三层字典
在线阶段通过形成后验信念和最小化KL散度异常指标评估候选动作
保持专家级规划结构，同时比改进的Q学习产生更平滑稳定的行为

论文链接:

https://arxiv.org/abs/2604.27935

9️⃣ SASI: Leveraging Sub-Action Semantics for Robust Early Action Recognition in Human-Robot Interaction

关键词: 人机交互 | 早期动作识别 | 子动作语义 | 图卷积网络

核心贡献:

提出SASI框架，整合子动作语义进行时空特征融合，支持实时早期动作识别
利用分割模型与传统基于骨骼的图卷积网络结合，捕获细粒度子动作语义和整体空间上下文
在BABEL数据集上实现29Hz实时推理，超越传统方法的动作识别准确率
在理解部分动作序列方面表现出色，支持主动无缝人机交互

论文链接:

https://arxiv.org/abs/2604.27508

🔟 Function-based Parametric Co-Design Optimization of Dexterous Hands

关键词: 灵巧手设计 | 参数化优化 | 抓取稳定性 | 跨具身控制

核心贡献:

统一参数化框架，将手掌结构、手指运动学、指尖几何和细尺度表面曲率整合到单一设计空间
通过参数化表面变形核引入精细几何特征，直接影响接触交互
在仿真和真实动态场景的抓取稳定性任务中验证设计优化
产生仿真和制造就绪的手部模型，支持灵巧手协同设计优化和跨具身策略训练

论文链接:

https://arxiv.org/abs/2604.27557

📊 今日趋势

研究方向	论文数量	热度
🧠 VLA/世界模型	3篇	🔥🔥🔥
🤖 机器人感知/操控	3篇	🔥🔥🔥
🎮 强化学习/决策	2篇	🔥🔥
🦾 灵巧操作/HRI	2篇	🔥🔥

💡 核心洞察

VLA模型进入物理推理新阶段：LaST-R1通过隐式CoT推理优化物理动态建模，MotuBrain提出统一世界动作模型，显示VLA正从静态模仿学习向物理-aware推理演进
感知系统向多模态、低成本方向演进：FlexiTac提供开源触觉感知方案，FreeOcc实现训练-free占用预测，表明感知硬件和算法正朝着更实用、更可扩展的方向发展
强化学习在自动驾驶和机器人中持续深化：GSDrive利用3DGS进行可微奖励塑造，RopeDreamer通过状态空间模型建模可变形物体动力学，显示RL在复杂物理交互中的应用日趋成熟
人机协同进入多参与者新范式：OmniRobotHome首次实现房间尺度多adic人机协作，SASI支持早期动作识别，表明HRI正从二元交互向更复杂的多智能体协同演进