�� AI具身智能日报 | 2026年4月29日-夜雨聆风

�� AI具身智能日报 | 2026年4月29日

📚 精选10篇最新论文，涵盖VLA模型、机器人安全、强化学习、人形机器人、触觉感知等前沿领域

🔥 今日亮点

M²-VLA: 层级混合与元技能增强VLA泛化能力 | VLA安全综述: 威胁、挑战与评估 | AsyncShield: 云边协同VLA导航适配器

📑 论文详情

1️⃣ M²-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills

关键词: VLA | 视觉语言模型 | 元技能 | 机器人操控 | 泛化能力

核心贡献:

提出M²-VLA框架，证明通用VLM可直接作为机器人操控的强大骨干网络，无需端到端微调
设计层级混合策略(Mixture of Layers, MoL)，从密集语义特征中选择性提取任务关键信息
引入元技能模块(Meta Skill Module, MSM)，在模型容量受限条件下实现高效轨迹学习
仿真与真实环境实验验证，具备零样本泛化能力，各关键组件贡献经消融实验确认

论文链接:

https://arxiv.org/abs/2604.24182

2️⃣ Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

关键词: VLA | 边缘部署 | XPU加速 | 模型-硬件协同 | 实时推理

核心贡献:

构建跨加速器评估框架，从成本-能耗-时间(CET)三维度评估模型-硬件组合
发现VLA推理呈现两阶段特征：计算受限的VLM骨干网络 + 内存受限的动作专家模块
提出DP-Cache和V-AEFusion方法，减少扩散冗余并实现异步流水线并行
在GPU上实现2.9倍加速，边缘NPU上实现6倍加速，成功率仅轻微下降

论文链接:

https://arxiv.org/abs/2604.24447

3️⃣ Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

关键词: VLA | 安全综述 | 对抗攻击 | 物理后果 | 多模态安全

核心贡献:

首篇系统性VLA安全综述，统一机器人学习、对抗机器学习、AI对齐和自主系统安全视角
沿攻击时机(训练时vs推理时)和防御时机两条轴线组织威胁与缓解策略
涵盖数据投毒、后门攻击、对抗补丁、跨模态扰动、语义越狱、冻结攻击等威胁类型
提出开放问题：具身轨迹认证鲁棒性、物理可实现防御、安全感知训练、统一运行时安全架构

论文链接:

https://arxiv.org/abs/2604.23775

4️⃣ AsyncShield: A Plug-and-Play Edge Adapter for Asynchronous Cloud-based VLA Navigation

关键词: VLA | 云边协同 | 异步控制 | 网络抖动 | 强化学习适配器

核心贡献:

针对云端VLA部署的网络抖动和推理延迟问题，提出确定性物理白盒空间映射框架
维护时序位姿缓冲区，利用运动学变换将时滞转换为空间位姿偏移以恢复VLA原始几何意图
将边缘适配形式化为约束马尔可夫决策过程(CMDP)，通过PPO-Lagrangian算法求解
无需微调云端基础模型，实现零样本鲁棒泛化，提升异步导航成功率和物理安全性

论文链接:

https://arxiv.org/abs/2604.24086

5️⃣ Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations

关键词: 视觉强化学习 | 动态扰动 | 混合专家 | 视觉退化 | 鲁棒性

核心贡献:

提出视觉退化控制套件(VDCS)基准，扩展DeepMind Control Suite支持马尔可夫切换退化
理论证明基于重建的目标会将扰动伪影纠缠到潜在表示中，导致性能退化
提出ACO-MoE框架，利用以智能体为中心的恢复专家实现退化解耦和任务相关前景提取
在VDCS上恢复95.3%的清洁性能，在DMControl泛化基准上达到SOTA

论文链接:

https://arxiv.org/abs/2604.24661

6️⃣ SPLIT: Separating Physical-Contact via Latent Arithmetic in Image-Based Tactile Sensors

关键词: 触觉传感器 | 潜在空间算术 | DIGIT传感器 | 物理接触解耦 | 仿真加速

核心贡献:

提出SPLIT方法，通过潜在空间算术显式解耦接触几何与传感器特定光学属性
无需为每个新单元重新校准，可适应多样化DIGIT背景并迁移到GelSight等不同传感器
推理速度优于现有替代方案，支持双向仿真（变形网格生成真实图像/从触觉图像重建网格）
提供可调分辨率的校准有限元方法(FEM)软体网格仿真，平衡速度与保真度

论文链接:

https://arxiv.org/abs/2604.24449

7️⃣ Unleashing the Agility of Wheeled-Legged Robots for High-Dynamic Reflexive Obstacle Evasion

关键词: 轮腿机器人 | 强化学习 | 高动态避障 | 反射式规避 | 分层控制

核心贡献:

提出AWARE分层强化学习框架，释放轮腿机器人在高动态威胁下的内在反射敏捷性
自然涌现多样化步态和规避行为，包括前冲和横向闪避，充分利用机器人混合形态学优势
Isaac Lab仿真与M20平台真实部署验证，在多样动态场景中实现鲁棒敏捷避障
揭示行为上截然不同的规避策略，展现轮腿机器人固有的反射敏捷性

论文链接:

https://arxiv.org/abs/2604.23761

8️⃣ QuietWalk: Physics-Informed Reinforcement Learning for Ground Reaction Force-Aware Humanoid Locomotion Under Diverse Footwear

关键词: 人形机器人 | 物理信息强化学习 | 地面反作用力 | 低噪声行走 | 跨鞋泛化

核心贡献:

提出QuietWalk框架，通过物理信息神经网络(PINN)从本体感觉信号估计每只脚的垂直地面反作用力
逆动力学一致性约束将垂直GRF预测误差降低82%-86%，决定系数从0.39/0.67提升至0.99/0.99
硬件实验(1.2m/s barefoot)平均A加权噪声级降低7.17dB，峰值噪声降低4.98dB
跨鞋实验(赤脚/滑板鞋/运动鞋/高跟鞋)验证对鞋类诱导接触变化的鲁棒适应

论文链接:

https://arxiv.org/abs/2604.23702

9️⃣ Guiding Vector Field Generation via Score-based Diffusion Model

关键词: 引导向量场 | 扩散模型 | 路径跟踪 | 几何控制 | 复杂拓扑

核心贡献:

提出SGVF统一框架，利用基于分数的生成建模直接从数据分布构建向量场
通过单位范数、正交性和方向一致性损失从点云学习切向量场，确保几何保真度和控制可行性
消除对临时路径分段的依赖，支持分支和伪流形等复杂拓扑引导
建立扩散模型中分数消失与GVF奇点之间的对应关系，在经典GVF失效场景下实现可靠路径跟踪

论文链接:

https://arxiv.org/abs/2604.24487

🔟 Multi-Robot Motions in Milliseconds: Vector-Accelerated Primitives for Sampling-Based Planning

关键词: 多机器人运动规划 | SIMD加速 | 运动验证 | 冲突检测 | 实时规划

核心贡献:

将VAMP框架扩展至多机器人运动规划(MRMP)，开发向量化加速的原语操作
提出多机器人运动验证(MotVal)和首冲突发现(FFC)原语，利用SIMD并行性
纯多机器人运动验证测试实现超过1100倍验证时间加速
多样场景(机械臂/刚体/异构团队)规划时间加速超过850倍，部分实例实现毫秒级多机器人解

论文链接:

https://arxiv.org/abs/2604.23960

📊 今日趋势

研究方向	论文数量	热度
🤖 VLA/具身智能	4篇	🔥🔥🔥
🎮 强化学习	3篇	🔥🔥🔥
🦾 机器人操控/感知	2篇	🔥🔥
⚡ 加速与部署	2篇	🔥🔥

💡 核心洞察

VLA部署与安全并重成为焦点：今日多篇论文聚焦VLA的实际部署挑战——从XPUs上的模型-硬件协同优化到云边协同的异步适配，再到系统性安全综述，显示VLA领域正从算法研究走向工程化落地和安全保障
物理信息学习成为新范式：QuietWalk和SPLIT展示了将物理先验(逆动力学、接触几何)融入学习系统的趋势，这类方法在数据效率和Sim-to-Real迁移上展现优势
轮腿机器人 agility 释放：AWARE框架充分挖掘轮腿机器人混合形态学的优势，实现高动态反射式避障，这类平台正在成为复杂环境下移动操作的重要载体
触觉仿真的解耦突破：SPLIT通过潜在空间算术解耦接触几何与光学属性，为触觉传感器的大规模仿真和数据生成提供了可扩展路径