�� AI具身智能日报 | 2026年4月23日
📚 精选10篇最新论文,涵盖VLA基础模型、强化学习、世界模型、机器人安全等前沿领域
🔥 今日亮点
VLA基础模型突破性进展 | 世界模型在工业与医疗场景落地 | 跨具身学习与上下文学习新范式
📑 论文详情
1️⃣ JoyAI-RA 0.1: A Foundation Model for Robotic Autonomy
关键词: VLA | 视觉-语言-动作 | 基础模型 | 跨具身学习 | 机器人操控
核心贡献:
-
提出JoyAI-RA,一个面向通用机器人操控的VLA具身基础模型
-
多源多级预训练框架整合网络数据、人体操作视频、仿真轨迹和真实机器人数据
-
通过显式动作空间统一有效弥合具身差距,增强跨具身行为学习
-
在仿真和真实世界基准测试中超越SOTA方法,特别是在需要泛化的多样化任务上
论文链接:
https://arxiv.org/abs/2604.20100
2️⃣ Efficient Reinforcement Learning using Linear Koopman Dynamics for Nonlinear Robotic Systems
关键词: 强化学习 | Koopman算子 | 模型预测控制 | 机器人控制 | 样本效率
核心贡献:
-
提出基于Koopman算子理论的模型强化学习框架,学习线性升维动力学
-
将学到的模型集成到Actor-Critic架构中进行策略优化
-
使用单步预测估计策略梯度,实现在线小批量策略梯度框架
-
在Kinova Gen3机械臂和Unitree Go1四足机器人上验证,样本效率显著提升
论文链接:
https://arxiv.org/abs/2604.19980
3️⃣ Toward Safe Autonomous Robotic Endovascular Interventions using World Models
关键词: 世界模型 | 医疗机器人 | 强化学习 | TD-MPC2 | 安全导航
核心贡献:
-
基于TD-MPC2构建自主血管内导航的世界模型框架,整合规划与学习动力学
-
在多种患者特定血管结构中训练,仿真成功率显著优于SAC (58% vs 36%)
-
平均尖端接触力0.15N,远低于1.5N血管破裂阈值,确保安全
-
首次在仿真和荧光引导体外实验中验证自主机械血栓切除术导航
论文链接:
https://arxiv.org/abs/2604.20151
4️⃣ LLM-Guided Safety Agent for Edge Robotics with an ISO-Compliant Perception-Compute-Control Architecture
关键词: LLM | 边缘机器人 | 功能安全 | ISO 13849 | 人机交互
核心贡献:
-
提出LLM引导的安全代理,将自然语言安全规范转换为可执行谓词
-
基于ISO合规的低延迟感知-计算-控制架构,采用对称双模冗余设计
-
在双RK3588平台上实现原型,支持ISO 13849 Category 3和PL d
-
在代表性人机交互场景中验证,为安全关键具身AI的实际部署提供路径
论文链接:
https://arxiv.org/abs/2604.20193
5️⃣ A Vision-Language-Action Model for Adaptive Ultrasound-Guided Needle Insertion and Needle Tracking
关键词: VLA | 医疗机器人 | 超声引导 | 针跟踪 | 自适应控制
核心贡献:
-
提出VLA模型用于自适应超声引导针插入和跟踪,统一跟踪与控制
-
设计Cross-Depth Fusion (CDF)跟踪头,集成浅层位置和深层语义特征
-
引入Tracking-Conditioning (TraCon)寄存器实现参数高效特征调节
-
实验表明跟踪精度和插入成功率优于SOTA跟踪器和人工操作
论文链接:
https://arxiv.org/abs/2604.20347
6️⃣ Bimanual Robot Manipulation via Multi-Agent In-Context Learning
关键词: 双手操控 | 上下文学习 | 多智能体 | 大语言模型 | 零样本学习
核心贡献:
-
提出BiCICLe框架,首个使标准LLM无需微调即可执行少样本双手操控的方法
-
将双手控制建模为多智能体领导者-跟随者问题,解耦动作空间
-
引入Arms’ Debate迭代精化和LLM-as-Judge评估协调轨迹
-
在TWIN基准13项任务上平均成功率71.1%,超越最佳无训练基线6.7个百分点
论文链接:
https://arxiv.org/abs/2604.20348
7️⃣ Cortex 2.0: Grounding World Models in Real-World Industrial Deployment
关键词: 世界模型 | 工业部署 | VLA | 长程规划 | 双臂操控
核心贡献:
-
从反应式控制转向规划-执行范式,在视觉潜在空间生成候选未来轨迹
-
对候选轨迹进行预期成功率和效率评分,仅执行最高评分方案
-
在单臂和双臂平台上评估,涵盖拾取放置、分类、拆箱等任务
-
在杂乱、遮挡和接触丰富的不结构化环境中保持可靠性,反应式策略失效
论文链接:
https://arxiv.org/abs/2604.20246
8️⃣ AdaTracker: Learning Adaptive In-Context Policy for Cross-Embodiment Active Visual Tracking
关键词: 跨具身学习 | 上下文策略 | 主动视觉跟踪 | 自适应控制 | 零样本泛化
核心贡献:
-
提出AdaTracker自适应上下文策略学习框架,单一模型适配多样化机器人
-
设计具身上下文编码器从历史推断具身特定约束
-
上下文表示动态调节上下文感知策略,实现零样本推断最优控制
-
仿真和真实实验表明在跨具身泛化、样本效率和零样本适应方面显著优于SOTA
论文链接:
https://arxiv.org/abs/2604.20305
9️⃣ SL(C)AMma: Simultaneous Localisation, (Calibration) and Mapping With a Magnetometer Array
关键词: SLAM | 磁力计阵列 | 室内定位 | 传感器校准 | 漂移校正
核心贡献:
-
提出基于磁力计阵列的SLAM算法SLAMma及其校准扩展SLCAMma
-
解决单磁力计SLAM中传感器不一致导致的里程计估计和回环检测问题
-
蒙特卡洛仿真证明在足够方向激励下可准确估计校准参数
-
实验验证相比本体感受传感器积分漂移降低80%以上
论文链接:
https://arxiv.org/abs/2604.19946
🔟 Toward Cooperative Driving in Mixed Traffic: An Adaptive Potential Game-Based Approach with Field Test Verification
关键词: 协作驾驶 | 混合交通 | 博弈论 | 自动驾驶 | 实地测试
核心贡献:
-
提出自适应势博弈(APG)协作驾驶框架,同时优化个体和系统目标
-
引入Shapley值计算每辆车的边际效用,量化其对系统的不同影响
-
动态优化人类驾驶车辆(HDV)偏好估计,持续提升系统安全性和效率
-
消融研究和对比实验验证,并通过实地测试验证实际场景适用性
论文链接:
https://arxiv.org/abs/2604.20231
📊 今日趋势
| 研究方向 | 论文数量 | 热度 |
|---|---|---|
| 🧠 VLA/VLM应用 | 3篇 | 🔥🔥🔥 |
| 🌍 世界模型/规划 | 2篇 | 🔥🔥🔥 |
| 🎮 强化学习算法 | 1篇 | 🔥🔥 |
| 🦾 机器人操控 | 2篇 | 🔥🔥 |
| 🏥 医疗机器人 | 2篇 | 🔥🔥 |
| 🚗 自动驾驶/导航 | 2篇 | 🔥🔥 |
💡 核心洞察
-
VLA基础模型成为具身智能核心范式:JoyAI-RA展示了多源数据融合与跨具身学习的巨大潜力,VLA模型正从研究走向实用,成为连接视觉、语言与动作的统一框架
-
世界模型从实验室走向工业与医疗场景:Cortex 2.0和血管内介入导航研究表明,世界模型在长程规划任务中的优势正在实际部署中得到验证,从反应式控制向规划-执行范式的转变正在发生
-
跨具身与上下文学习降低机器人学习门槛:BiCICLe和AdaTracker展示了通过上下文学习实现零样本/少样本适应的新路径,大幅降低为每个机器人重新训练模型的成本
-
安全与可解释性成为落地关键:ISO合规的安全代理和医疗应用中的力控制研究表明,将AI系统与工业安全标准对齐、提供可解释的安全保障是实际部署的必要条件
夜雨聆风