乐于分享
好东西不私藏

�� AI具身智能日报 | 2026年4月29日

�� AI具身智能日报 | 2026年4月29日

📚 精选10篇最新论文,涵盖VLA模型、机器人安全、强化学习、人形机器人、触觉感知等前沿领域


🔥 今日亮点

M²-VLA: 层级混合与元技能增强VLA泛化能力 | VLA安全综述: 威胁、挑战与评估 | AsyncShield: 云边协同VLA导航适配器


📑 论文详情

1️⃣ M²-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills

关键词: VLA | 视觉语言模型 | 元技能 | 机器人操控 | 泛化能力

核心贡献:

  • 提出M²-VLA框架,证明通用VLM可直接作为机器人操控的强大骨干网络,无需端到端微调

  • 设计层级混合策略(Mixture of Layers, MoL),从密集语义特征中选择性提取任务关键信息

  • 引入元技能模块(Meta Skill Module, MSM),在模型容量受限条件下实现高效轨迹学习

  • 仿真与真实环境实验验证,具备零样本泛化能力,各关键组件贡献经消融实验确认

论文链接:

https://arxiv.org/abs/2604.24182


2️⃣ Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

关键词: VLA | 边缘部署 | XPU加速 | 模型-硬件协同 | 实时推理

核心贡献:

  • 构建跨加速器评估框架,从成本-能耗-时间(CET)三维度评估模型-硬件组合

  • 发现VLA推理呈现两阶段特征:计算受限的VLM骨干网络 + 内存受限的动作专家模块

  • 提出DP-Cache和V-AEFusion方法,减少扩散冗余并实现异步流水线并行

  • 在GPU上实现2.9倍加速,边缘NPU上实现6倍加速,成功率仅轻微下降

论文链接:

https://arxiv.org/abs/2604.24447


3️⃣ Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

关键词: VLA | 安全综述 | 对抗攻击 | 物理后果 | 多模态安全

核心贡献:

  • 首篇系统性VLA安全综述,统一机器人学习、对抗机器学习、AI对齐和自主系统安全视角

  • 沿攻击时机(训练时vs推理时)和防御时机两条轴线组织威胁与缓解策略

  • 涵盖数据投毒、后门攻击、对抗补丁、跨模态扰动、语义越狱、冻结攻击等威胁类型

  • 提出开放问题:具身轨迹认证鲁棒性、物理可实现防御、安全感知训练、统一运行时安全架构

论文链接:

https://arxiv.org/abs/2604.23775


4️⃣ AsyncShield: A Plug-and-Play Edge Adapter for Asynchronous Cloud-based VLA Navigation

关键词: VLA | 云边协同 | 异步控制 | 网络抖动 | 强化学习适配器

核心贡献:

  • 针对云端VLA部署的网络抖动和推理延迟问题,提出确定性物理白盒空间映射框架

  • 维护时序位姿缓冲区,利用运动学变换将时滞转换为空间位姿偏移以恢复VLA原始几何意图

  • 将边缘适配形式化为约束马尔可夫决策过程(CMDP),通过PPO-Lagrangian算法求解

  • 无需微调云端基础模型,实现零样本鲁棒泛化,提升异步导航成功率和物理安全性

论文链接:

https://arxiv.org/abs/2604.24086


5️⃣ Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations

关键词: 视觉强化学习 | 动态扰动 | 混合专家 | 视觉退化 | 鲁棒性

核心贡献:

  • 提出视觉退化控制套件(VDCS)基准,扩展DeepMind Control Suite支持马尔可夫切换退化

  • 理论证明基于重建的目标会将扰动伪影纠缠到潜在表示中,导致性能退化

  • 提出ACO-MoE框架,利用以智能体为中心的恢复专家实现退化解耦和任务相关前景提取

  • 在VDCS上恢复95.3%的清洁性能,在DMControl泛化基准上达到SOTA

论文链接:

https://arxiv.org/abs/2604.24661


6️⃣ SPLIT: Separating Physical-Contact via Latent Arithmetic in Image-Based Tactile Sensors

关键词: 触觉传感器 | 潜在空间算术 | DIGIT传感器 | 物理接触解耦 | 仿真加速

核心贡献:

  • 提出SPLIT方法,通过潜在空间算术显式解耦接触几何与传感器特定光学属性

  • 无需为每个新单元重新校准,可适应多样化DIGIT背景并迁移到GelSight等不同传感器

  • 推理速度优于现有替代方案,支持双向仿真(变形网格生成真实图像/从触觉图像重建网格)

  • 提供可调分辨率的校准有限元方法(FEM)软体网格仿真,平衡速度与保真度

论文链接:

https://arxiv.org/abs/2604.24449


7️⃣ Unleashing the Agility of Wheeled-Legged Robots for High-Dynamic Reflexive Obstacle Evasion

关键词: 轮腿机器人 | 强化学习 | 高动态避障 | 反射式规避 | 分层控制

核心贡献:

  • 提出AWARE分层强化学习框架,释放轮腿机器人在高动态威胁下的内在反射敏捷性

  • 自然涌现多样化步态和规避行为,包括前冲和横向闪避,充分利用机器人混合形态学优势

  • Isaac Lab仿真与M20平台真实部署验证,在多样动态场景中实现鲁棒敏捷避障

  • 揭示行为上截然不同的规避策略,展现轮腿机器人固有的反射敏捷性

论文链接:

https://arxiv.org/abs/2604.23761


8️⃣ QuietWalk: Physics-Informed Reinforcement Learning for Ground Reaction Force-Aware Humanoid Locomotion Under Diverse Footwear

关键词: 人形机器人 | 物理信息强化学习 | 地面反作用力 | 低噪声行走 | 跨鞋泛化

核心贡献:

  • 提出QuietWalk框架,通过物理信息神经网络(PINN)从本体感觉信号估计每只脚的垂直地面反作用力

  • 逆动力学一致性约束将垂直GRF预测误差降低82%-86%,决定系数从0.39/0.67提升至0.99/0.99

  • 硬件实验(1.2m/s barefoot)平均A加权噪声级降低7.17dB,峰值噪声降低4.98dB

  • 跨鞋实验(赤脚/滑板鞋/运动鞋/高跟鞋)验证对鞋类诱导接触变化的鲁棒适应

论文链接:

https://arxiv.org/abs/2604.23702


9️⃣ Guiding Vector Field Generation via Score-based Diffusion Model

关键词: 引导向量场 | 扩散模型 | 路径跟踪 | 几何控制 | 复杂拓扑

核心贡献:

  • 提出SGVF统一框架,利用基于分数的生成建模直接从数据分布构建向量场

  • 通过单位范数、正交性和方向一致性损失从点云学习切向量场,确保几何保真度和控制可行性

  • 消除对临时路径分段的依赖,支持分支和伪流形等复杂拓扑引导

  • 建立扩散模型中分数消失与GVF奇点之间的对应关系,在经典GVF失效场景下实现可靠路径跟踪

论文链接:

https://arxiv.org/abs/2604.24487


🔟 Multi-Robot Motions in Milliseconds: Vector-Accelerated Primitives for Sampling-Based Planning

关键词: 多机器人运动规划 | SIMD加速 | 运动验证 | 冲突检测 | 实时规划

核心贡献:

  • 将VAMP框架扩展至多机器人运动规划(MRMP),开发向量化加速的原语操作

  • 提出多机器人运动验证(MotVal)和首冲突发现(FFC)原语,利用SIMD并行性

  • 纯多机器人运动验证测试实现超过1100倍验证时间加速

  • 多样场景(机械臂/刚体/异构团队)规划时间加速超过850倍,部分实例实现毫秒级多机器人解

论文链接:

https://arxiv.org/abs/2604.23960


📊 今日趋势

研究方向 论文数量 热度
🤖 VLA/具身智能 4篇 🔥🔥🔥
🎮 强化学习 3篇 🔥🔥🔥
🦾 机器人操控/感知 2篇 🔥🔥
⚡ 加速与部署 2篇 🔥🔥

💡 核心洞察

  1. VLA部署与安全并重成为焦点:今日多篇论文聚焦VLA的实际部署挑战——从XPUs上的模型-硬件协同优化到云边协同的异步适配,再到系统性安全综述,显示VLA领域正从算法研究走向工程化落地和安全保障

  2. 物理信息学习成为新范式:QuietWalk和SPLIT展示了将物理先验(逆动力学、接触几何)融入学习系统的趋势,这类方法在数据效率和Sim-to-Real迁移上展现优势

  3. 轮腿机器人 agility 释放:AWARE框架充分挖掘轮腿机器人混合形态学的优势,实现高动态反射式避障,这类平台正在成为复杂环境下移动操作的重要载体

  4. 触觉仿真的解耦突破:SPLIT通过潜在空间算术解耦接触几何与光学属性,为触觉传感器的大规模仿真和数据生成提供了可扩展路径