�� AI具身智能日报 | 2026年4月29日
📚 精选10篇最新论文,涵盖VLA模型、机器人安全、强化学习、人形机器人、触觉感知等前沿领域
🔥 今日亮点
M²-VLA: 层级混合与元技能增强VLA泛化能力 | VLA安全综述: 威胁、挑战与评估 | AsyncShield: 云边协同VLA导航适配器
📑 论文详情
1️⃣ M²-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills
关键词: VLA | 视觉语言模型 | 元技能 | 机器人操控 | 泛化能力
核心贡献:
-
提出M²-VLA框架,证明通用VLM可直接作为机器人操控的强大骨干网络,无需端到端微调
-
设计层级混合策略(Mixture of Layers, MoL),从密集语义特征中选择性提取任务关键信息
-
引入元技能模块(Meta Skill Module, MSM),在模型容量受限条件下实现高效轨迹学习
-
仿真与真实环境实验验证,具备零样本泛化能力,各关键组件贡献经消融实验确认
论文链接:
https://arxiv.org/abs/2604.24182
2️⃣ Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment
关键词: VLA | 边缘部署 | XPU加速 | 模型-硬件协同 | 实时推理
核心贡献:
-
构建跨加速器评估框架,从成本-能耗-时间(CET)三维度评估模型-硬件组合
-
发现VLA推理呈现两阶段特征:计算受限的VLM骨干网络 + 内存受限的动作专家模块
-
提出DP-Cache和V-AEFusion方法,减少扩散冗余并实现异步流水线并行
-
在GPU上实现2.9倍加速,边缘NPU上实现6倍加速,成功率仅轻微下降
论文链接:
https://arxiv.org/abs/2604.24447
3️⃣ Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms
关键词: VLA | 安全综述 | 对抗攻击 | 物理后果 | 多模态安全
核心贡献:
-
首篇系统性VLA安全综述,统一机器人学习、对抗机器学习、AI对齐和自主系统安全视角
-
沿攻击时机(训练时vs推理时)和防御时机两条轴线组织威胁与缓解策略
-
涵盖数据投毒、后门攻击、对抗补丁、跨模态扰动、语义越狱、冻结攻击等威胁类型
-
提出开放问题:具身轨迹认证鲁棒性、物理可实现防御、安全感知训练、统一运行时安全架构
论文链接:
https://arxiv.org/abs/2604.23775
4️⃣ AsyncShield: A Plug-and-Play Edge Adapter for Asynchronous Cloud-based VLA Navigation
关键词: VLA | 云边协同 | 异步控制 | 网络抖动 | 强化学习适配器
核心贡献:
-
针对云端VLA部署的网络抖动和推理延迟问题,提出确定性物理白盒空间映射框架
-
维护时序位姿缓冲区,利用运动学变换将时滞转换为空间位姿偏移以恢复VLA原始几何意图
-
将边缘适配形式化为约束马尔可夫决策过程(CMDP),通过PPO-Lagrangian算法求解
-
无需微调云端基础模型,实现零样本鲁棒泛化,提升异步导航成功率和物理安全性
论文链接:
https://arxiv.org/abs/2604.24086
5️⃣ Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations
关键词: 视觉强化学习 | 动态扰动 | 混合专家 | 视觉退化 | 鲁棒性
核心贡献:
-
提出视觉退化控制套件(VDCS)基准,扩展DeepMind Control Suite支持马尔可夫切换退化
-
理论证明基于重建的目标会将扰动伪影纠缠到潜在表示中,导致性能退化
-
提出ACO-MoE框架,利用以智能体为中心的恢复专家实现退化解耦和任务相关前景提取
-
在VDCS上恢复95.3%的清洁性能,在DMControl泛化基准上达到SOTA
论文链接:
https://arxiv.org/abs/2604.24661
6️⃣ SPLIT: Separating Physical-Contact via Latent Arithmetic in Image-Based Tactile Sensors
关键词: 触觉传感器 | 潜在空间算术 | DIGIT传感器 | 物理接触解耦 | 仿真加速
核心贡献:
-
提出SPLIT方法,通过潜在空间算术显式解耦接触几何与传感器特定光学属性
-
无需为每个新单元重新校准,可适应多样化DIGIT背景并迁移到GelSight等不同传感器
-
推理速度优于现有替代方案,支持双向仿真(变形网格生成真实图像/从触觉图像重建网格)
-
提供可调分辨率的校准有限元方法(FEM)软体网格仿真,平衡速度与保真度
论文链接:
https://arxiv.org/abs/2604.24449
7️⃣ Unleashing the Agility of Wheeled-Legged Robots for High-Dynamic Reflexive Obstacle Evasion
关键词: 轮腿机器人 | 强化学习 | 高动态避障 | 反射式规避 | 分层控制
核心贡献:
-
提出AWARE分层强化学习框架,释放轮腿机器人在高动态威胁下的内在反射敏捷性
-
自然涌现多样化步态和规避行为,包括前冲和横向闪避,充分利用机器人混合形态学优势
-
Isaac Lab仿真与M20平台真实部署验证,在多样动态场景中实现鲁棒敏捷避障
-
揭示行为上截然不同的规避策略,展现轮腿机器人固有的反射敏捷性
论文链接:
https://arxiv.org/abs/2604.23761
8️⃣ QuietWalk: Physics-Informed Reinforcement Learning for Ground Reaction Force-Aware Humanoid Locomotion Under Diverse Footwear
关键词: 人形机器人 | 物理信息强化学习 | 地面反作用力 | 低噪声行走 | 跨鞋泛化
核心贡献:
-
提出QuietWalk框架,通过物理信息神经网络(PINN)从本体感觉信号估计每只脚的垂直地面反作用力
-
逆动力学一致性约束将垂直GRF预测误差降低82%-86%,决定系数从0.39/0.67提升至0.99/0.99
-
硬件实验(1.2m/s barefoot)平均A加权噪声级降低7.17dB,峰值噪声降低4.98dB
-
跨鞋实验(赤脚/滑板鞋/运动鞋/高跟鞋)验证对鞋类诱导接触变化的鲁棒适应
论文链接:
https://arxiv.org/abs/2604.23702
9️⃣ Guiding Vector Field Generation via Score-based Diffusion Model
关键词: 引导向量场 | 扩散模型 | 路径跟踪 | 几何控制 | 复杂拓扑
核心贡献:
-
提出SGVF统一框架,利用基于分数的生成建模直接从数据分布构建向量场
-
通过单位范数、正交性和方向一致性损失从点云学习切向量场,确保几何保真度和控制可行性
-
消除对临时路径分段的依赖,支持分支和伪流形等复杂拓扑引导
-
建立扩散模型中分数消失与GVF奇点之间的对应关系,在经典GVF失效场景下实现可靠路径跟踪
论文链接:
https://arxiv.org/abs/2604.24487
🔟 Multi-Robot Motions in Milliseconds: Vector-Accelerated Primitives for Sampling-Based Planning
关键词: 多机器人运动规划 | SIMD加速 | 运动验证 | 冲突检测 | 实时规划
核心贡献:
-
将VAMP框架扩展至多机器人运动规划(MRMP),开发向量化加速的原语操作
-
提出多机器人运动验证(MotVal)和首冲突发现(FFC)原语,利用SIMD并行性
-
纯多机器人运动验证测试实现超过1100倍验证时间加速
-
多样场景(机械臂/刚体/异构团队)规划时间加速超过850倍,部分实例实现毫秒级多机器人解
论文链接:
https://arxiv.org/abs/2604.23960
📊 今日趋势
| 研究方向 | 论文数量 | 热度 |
|---|---|---|
| 🤖 VLA/具身智能 | 4篇 | 🔥🔥🔥 |
| 🎮 强化学习 | 3篇 | 🔥🔥🔥 |
| 🦾 机器人操控/感知 | 2篇 | 🔥🔥 |
| ⚡ 加速与部署 | 2篇 | 🔥🔥 |
💡 核心洞察
-
VLA部署与安全并重成为焦点:今日多篇论文聚焦VLA的实际部署挑战——从XPUs上的模型-硬件协同优化到云边协同的异步适配,再到系统性安全综述,显示VLA领域正从算法研究走向工程化落地和安全保障
-
物理信息学习成为新范式:QuietWalk和SPLIT展示了将物理先验(逆动力学、接触几何)融入学习系统的趋势,这类方法在数据效率和Sim-to-Real迁移上展现优势
-
轮腿机器人 agility 释放:AWARE框架充分挖掘轮腿机器人混合形态学的优势,实现高动态反射式避障,这类平台正在成为复杂环境下移动操作的重要载体
-
触觉仿真的解耦突破:SPLIT通过潜在空间算术解耦接触几何与光学属性,为触觉传感器的大规模仿真和数据生成提供了可扩展路径
夜雨聆风