�� AI具身智能日报 | 2026年4月15日

📚 精选10篇最新论文，涵盖VLA、世界模型、机器人操控、强化学习等前沿领域

🔥 今日亮点

StarVLA-α简化VLA架构设计 | 解耦点扩散实现精确物体放置 | 具身世界模型语义泛化规划

📑 论文详情

1️⃣ StarVLA-α: Reducing Complexity in Vision-Language-Action Systems

关键词: VLA | 视觉-语言-动作 | 模型简化 | 通用机器人策略

核心贡献:

提出StarVLA-α基线模型，通过最小化架构复杂度系统分析VLA设计选择，包括动作建模策略、机器人专用预训练和接口工程
在LIBERO、SimplerEnv、RoboTwin、RoboCasa多基准统一训练验证，证明强VLM主干+极简设计已足以达到优秀性能
单一通用模型在真实世界RoboChallenge基准上比π₀.₅提升20%，展现出色泛化能力
为VLA领域提供简洁且强的研究起点，代码将开源

论文链接:

https://arxiv.org/abs/2604.11757

2️⃣ TAX-DPD: Disentangled Point Diffusion for Precise Object Placement

关键词: 扩散模型 | 点云生成 | 物体放置 | 精密装配

核心贡献:

提出分层解耦点扩散框架TAX-DPD，在放置精度、多模态覆盖率和几何泛化上达到SOTA
通过密集高斯混合模型建模全局场景级放置，解耦点云扩散模块分别扩散物体几何和放置坐标系
在工业精密插入任务和布料悬挂任务上验证，点云扩散比SE(3)扩散实现更高精度
支持非刚性物体操作，扩展了目标预测范式的应用范围

论文链接:

https://arxiv.org/abs/2604.11793

3️⃣ Grounded World Model for Semantically Generalizable Planning

关键词: 世界模型 | 视觉-语言对齐 | MPC规划 | 语义泛化

核心贡献:

提出Grounded World Model (GWM)，在视觉-语言对齐潜空间中学习世界模型，将visuomotor MPC转化为VLA
通过嵌入相似度评分动作提议的未来结果与任务指令的匹配程度，无需目标图像即可规划
在WISER基准上达到87%成功率，相比传统VLA在未见视觉信号和指代表达上仅22%成功率有巨大提升
在训练集90%成功率的同时，展现出强大的语义泛化能力

论文链接:

https://arxiv.org/abs/2604.11751

4️⃣ Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning

关键词: 扩散规划 | 多智能体 | 在线强化学习 | 协同驾驶

核心贡献:

提出Multi-ORFT框架，将场景条件扩散预训练与稳定在线强化后训练结合，用于闭环协同驾驶
使用智能体间自注意力、交叉注意力和AdaLN-Zero场景条件提升联合轨迹的场景一致性和道路遵循性
设计两级MDP和方差门控组相对策略优化(VG-GRPO)稳定训练，暴露逐步反向核似然用于在线优化
在WOMD闭环基准上，碰撞率从2.04%降至1.89%，脱轨率从1.68%降至1.36%，平均速度从8.36提升至8.61 m/s

论文链接:

https://arxiv.org/abs/2604.11734

5️⃣ Identifying Inductive Biases for Robot Co-Design

关键词: 机器人协同设计 | 形态-控制联合优化 | 软体机器人 | 归纳偏置

核心贡献:

分析软体移动和操控任务的协同设计景观，识别出跨协同设计空间区域一致的三种模式
发现高质量区域在更多维度上展现变化，同时紧密耦合形态与控制，质量沿低维流形变化
提出自适应协同设计算法，从搜索中收集的信息推断结构并适应每个任务的特定结构
相比基准算法实现36%更多改进，样本效率提升两个数量级

论文链接:

https://arxiv.org/abs/2604.11768

6️⃣ AffordSim: Scalable Data Generator for Affordance-Aware Robotic Manipulation

关键词: 可供性感知 | 数据生成 | 仿真平台 | 模仿学习

核心贡献:

提出AffordSim首个将开放词汇3D可供性预测集成到操作数据生成流程的仿真框架
开发VoxAfford模型，通过多尺度几何特征增强MLLM输出，预测物体点云上的可供性图，引导抓取姿态估计向任务相关功能区域
基于NVIDIA Isaac Sim构建，支持跨本体(Franka FR3、Panda、UR5e、Kinova)、VLM驱动任务生成和DA3-based域随机化
建立50任务7类别基准，评估4种模仿学习基线，揭示抓取已基本解决(53-93%)，但倒酒(1-43%)和挂杯(0-47%)等可供性需求任务仍具挑战

论文链接:

https://arxiv.org/abs/2604.11674

7️⃣ Du-FreqNet: Dual-Control Frequency-Aware Diffusion for Microrobot Microscopy

关键词: 微机器人 | 扩散模型 | 显微图像生成 | 频率域损失

核心贡献:

提出Du-FreqNet双控制频率感知扩散模型，用于物理一致的显微图像合成，解决微机器人3D感知数据稀缺问题
设计两个独立ControlNet分支分别编码微机器人3D点云和深度特定网格层，引入自适应频域损失动态重加权高低频成分
利用可微FFT-based监督捕获像素空间方法常遗漏的物理有意义频率分布
在有限数据集(每姿态80张图像)上训练，SSIM比基线提升20.7%，有效泛化到未见姿态，显著提升3D姿态和深度估计等下游任务

论文链接:

https://arxiv.org/abs/2604.11680

8️⃣ ACT: Automated CPS Testing for Open-Source Robotic Platforms

关键词: 开源机器人 | 自动化测试 | 网络物理系统 | 持续集成

核心贡献:

提出Automated CPS Testing (ACT)框架，对开源软件与其机器人平台进行自动化持续测试
集成GitHub等开源基础设施，实现多模块CPS软件的自动化测试，解决开源贡献者开发导致的错误难以检测问题
在教育机器人平台上实现原型并进行案例研究，验证其检测关键错误的能力
为开源机器人软件的可靠性保障提供可行方案

论文链接:

https://arxiv.org/abs/2604.11708

9️⃣ VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis

关键词: VLA | 数据合成 | 视频-动作生成 | 世界模型

核心贡献:

提出VAG统一双流框架，基于流匹配联合生成视频和动作轨迹，解决世界模型缺乏配对动作数据的问题
通过同步双分支去噪过程和自适应3D池化机制，实现视频上下文向动作分支的有效迁移
在模拟和真实环境中验证，生成数据具有强跨模态一致性，支持高质量机器人策略学习
为大规模机器人基础模型训练提供可扩展的数据合成方案

论文链接:

https://arxiv.org/abs/2604.09330

🔟 Toward Hardware-Agnostic Quadrupedal World Models via Morphology Conditioning

关键词: 世界模型 | 四足机器人 | 形态条件化 | 零样本泛化

核心贡献:

提出首个支持跨形态零样本泛化的四足世界模型(QWM)，通过显式条件化机器人工程规格参数
集成物理形态编码器和奖励归一化器，解耦环境动力学与机器人形态，实现通用神经仿真器
在Unitree Go1和Boston Dynamics Spot等不同平台上验证零样本控制能力
为腿式机器人运动控制的通用世界模型奠定重要基础

论文链接:

https://arxiv.org/abs/2604.08780

📊 今日趋势

研究方向	论文数量	热度
🧠 VLA/VLM应用	3篇	🔥🔥🔥
🔮 扩散模型应用	3篇	🔥🔥🔥
🌍 世界模型/仿真	3篇	🔥🔥
🤖 机器人系统	2篇	🔥🔥
🎮 强化学习	1篇	🔥🔥

💡 核心洞察

VLA架构简化成为新趋势：StarVLA-α证明极简设计+强VLM主干已足以达到优秀性能，在真实世界基准上比π₀.₅提升20%，为领域提供清晰基线
扩散模型在机器人领域多点突破：从精密物体放置(TAX-DPD)到显微图像生成(Du-FreqNet)再到多智能体驾驶规划(Multi-ORFT)，扩散模型展现出强大的条件生成能力
可供性感知数据生成受关注：AffordSim揭示当前模仿学习方法在需要精细功能区域交互的任务上仍存显著差距(挂杯0-47%)，推动可供性感知的数据合成发展
世界模型走向语义泛化：GWM将视觉-语言对齐引入世界模型，在未见场景上达到87%成功率，远超传统VLA的22%，展现视觉-语言融合的规划潜力
跨本体泛化进入实用阶段：从四足世界模型的形态条件化到AffordSim的跨本体支持，机器人学习正突破特定硬件限制