�� AI具身智能日报 | 2026年4月22日
📚 精选10篇最新论文,涵盖VLA推理、具身安全、灵巧操控、强化学习等前沿领域
🔥 今日亮点
单步潜在推理突破CoT速度瓶颈 | LLM规划存在系统性安全风险 | 显式物理可行性监督提升VLA可靠性
📑 论文详情
1️⃣ OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
关键词: VLA | 单步推理 | 世界模型 | 自动驾驶
核心贡献:
-
提出OneVL统一VLA和世界模型框架,通过双辅助解码器监督的紧凑潜在Token实现单步推理
-
引入视觉世界模型解码器预测未来帧Token,迫使潜在空间内嵌道路几何、智能体运动和环境变化的因果动态
-
三阶段训练流程逐步对齐潜在表示与轨迹、语言和视觉目标,推理时丢弃辅助解码器,单次并行传递完成推理
-
在四个基准上成为首个超越显式CoT的潜在CoT方法,在仅答案延迟下实现SOTA精度
论文链接:
https://arxiv.org/abs/2604.18486
2️⃣ XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments
关键词: VLA | 3D几何感知 | 物理线索 | 具身基础模型
核心贡献:
-
提出XEmbodied云端基础模型,为VLM赋予内在3D几何感知能力和物理线索交互能力(如占据网格、3D边界框)
-
通过结构化3D适配器集成几何表示,使用高效图像-具身适配器将物理信号蒸馏为上下文Token
-
渐进式领域课程和强化学习后训练,在18个公共基准上展示稳健性能
-
显著提升空间推理、交通语义、具身 affordance 和分布外泛化能力
论文链接:
https://arxiv.org/abs/2604.18484
3️⃣ Using large language models for embodied planning introduces systematic safety risks
关键词: LLM规划 | 安全风险 | 机器人规划 | 基准测试
核心贡献:
-
引入DESPITE基准,包含12,279个涵盖身体和规范危险的任务,具有完全确定性验证
-
发现即使规划能力近乎完美的模型仍存在安全隐患:最佳规划模型仅在0.4%任务上失败,但28.3%产生危险规划
-
规模扩大显著提升规划能力(0.4-99.3%),但安全意识保持相对平稳(38-57%)
-
三种专有推理模型达到更高安全意识(71-81%),开源推理模型和非推理专有模型仍低于57%
论文链接:
https://arxiv.org/abs/2604.18468
4️⃣ Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models
关键词: VLA | 具身推理 | 因果干预 | 基准测试
核心贡献:
-
提出BeTTER诊断基准,通过因果干预(空间布局变化、时间外推)测试VLA的真正具身推理能力
-
揭示SOTA VLA在动态场景中灾难性失败,存在严重的词汇-运动学捷径、行为惯性和语义特征坍塌
-
机制分析发现架构瓶颈(容量压缩、短视下采样)系统性损害语义表征
-
真实机器人验证确认表征崩溃不是仿真伪影,VLA范式需解决高频控制与高层推理之间的结构性张力
论文链接:
https://arxiv.org/abs/2604.18417
5️⃣ Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study
关键词: VLA | 物理可行性 | 显式监督 | 模仿学习
核心贡献:
-
研究显式可行性监督是否能为VLA策略提供有效的结构化指导,现有VLA训练不监督硬性物理约束(如避障、运动学可行性)
-
制定简单的几何基础可行性目标,将其集成到基于扩散的VLA策略训练阶段
-
使用障碍感知操控作为几何依赖物理可行性的受控探针进行系统评估
-
实验表明,增加可行性监督提升物理可靠性和整体任务性能,同时增强低数据机制下的学习效率
论文链接:
https://arxiv.org/abs/2604.18257
6️⃣ SpaceDex: Generalizable Dexterous Grasping in Tiered Workspaces
关键词: 灵巧抓取 | 分层工作空间 | VLM规划器 | 触觉感知
核心贡献:
-
提出SpaceDex分层框架,解决分层工作空间中高自由度灵巧抓取的挑战(遮挡、狭窄间隙、高度依赖约束)
-
VLM规划器解析用户意图,推理多视角下的遮挡和高度关系,生成目标边界框用于零样本分割和掩码跟踪
-
引入臂-手特征分离网络,将臂的全局轨迹控制与手的几何感知抓取模式选择解耦
-
在100次真实世界试验中涉及30多个未见物体,成功率63.0%,比强基线提升24%
论文链接:
https://arxiv.org/abs/2604.17888
7️⃣ StableIDM: Stabilizing Inverse Dynamics Model against Manipulator Truncation via Spatio-Temporal Refinement
关键词: 反动力学模型 | 时空精炼 | 部分可观测 | 视觉-语言-动作
核心贡献:
-
提出StableIDM时空框架,在机械臂截断(常见失效模式)下稳定动作预测
-
集成三个互补组件:辅助机器人中心掩码抑制背景干扰、方向特征聚合(DFA)进行几何感知空间推理、时间动态精炼(TDR)通过运动连续性平滑预测
-
在AgiBot基准上严重截断情况下严格动作准确率提升12.1%,真实机器人回放平均任务成功率提升9.7%
-
作为自动标注器时,下游VLA真实机器人成功率提升17.6%
论文链接:
https://arxiv.org/abs/2604.17887
8️⃣ OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation
关键词: 流匹配 | 对象感知 | 时间预测 | 机器人操控
核心贡献:
-
提出OFlow框架,将对象感知时间流匹配注入VLA,统一时间预见和对象感知推理
-
预测未来潜在状态,将其分解为强调物理相关线索的对象感知表征,过滤任务无关变化
-
在共享语义潜在空间中条件化连续动作生成,实现分布偏移下的更可靠控制
-
在LIBERO、LIBERO-Plus、MetaWorld和SimplerEnv基准及真实任务中,对象感知预见一致提升鲁棒性和成功率
论文链接:
https://arxiv.org/abs/2604.17876
9️⃣ Fisher Decorator: Refining Flow Policy via A Local Transport Map
关键词: 强化学习 | 流策略 | Fisher信息矩阵 | 离线RL
核心贡献:
-
提出Fisher Decorator框架,从几何视角重新审视线策略离线RL,将策略精炼公式化为局部传输映射
-
分析诱导密度变换,推导由Fisher信息矩阵控制的KL约束目标的局部二次近似,实现可处理的各向异性优化
-
利用嵌入流速度中的评分函数获得相应的二次约束用于高效优化
-
在多样离线RL基准上展示SOTA性能,揭示先前方法的最优性差距源于各向同性近似
论文链接:
https://arxiv.org/abs/2604.18203
🔟 DART: Learning-Enhanced Model Predictive Control for Dual-Arm Non-Prehensile Manipulation
关键词: 双臂操控 | 非抓取式操控 | 模型预测控制 | 托盘运输
核心贡献:
-
提出DART双臂框架,集成非线性MPC和基于优化的阻抗控制器,实现相对于动态控制托盘的精确物体运动
-
系统评估三种托盘-物体动力学建模策略:基于物理的分析模型、实时自适应的在线回归识别模型、跨物体泛化的强化学习动力学模型
-
在仿真中验证不同质量、几何和摩擦系数物体,评估稳定时间、稳态误差、控制 effort 和跨物体泛化的权衡
-
据知是首个双臂非抓取式托盘物体操控框架
论文链接:
https://arxiv.org/abs/2604.17833
📊 今日趋势
| 研究方向 | 论文数量 | 热度 |
|---|---|---|
| 🤖 VLA/VLM推理与安全 | 5篇 | 🔥🔥🔥 |
| 🦾 机器人操控 | 3篇 | 🔥🔥🔥 |
| 🧠 强化学习算法 | 1篇 | 🔥🔥 |
| ⚠️ 安全与风险评估 | 1篇 | 🔥🔥 |
💡 核心洞察
-
VLA推理速度与质量并重:OneVL通过单步潜在推理突破传统CoT的自回归延迟瓶颈,证明当潜在空间同时受语言和世界模型监督时,紧凑压缩比逐Token推理产生更可泛化的表示
-
LLM规划安全隐患被揭示:DESPITE基准系统评估显示,规划能力与安全意识的解耦是普遍现象——即使近乎完美的规划模型仍可能产生危险规划,安全意识并未随规模同步提升
-
显式物理监督成为VLA优化新方向:研究表明,将几何基础的物理可行性目标显式集成到VLA训练中,不仅提升物理可靠性和任务性能,还增强低数据机制下的学习效率
-
VLA真正推理能力受质疑:BeTTER基准通过因果干预揭示SOTA VLA存在严重的词汇-运动学捷径和行为惯性,高基准成功率可能掩盖了真正的推理缺陷
夜雨聆风