�� AI具身智能日报 | 2026年5月11日

📚 精选10篇最新论文，涵盖VLA、强化学习、世界模型、机器人操控、多模态学习等前沿领域

🔥 今日亮点

多模态自动驾驶数据统一框架123D | 主动视觉与预期凝视基准TAVIS | 状态感知记忆编译器MemCompiler

📑 论文详情

1️⃣ 123D: Unifying Multi-Modal Autonomous Driving Data at Scale

关键词: 多模态学习 | 自动驾驶 | 数据统一 | 机器人数据集

核心贡献:

提出123D开源框架，通过统一API整合多模态驾驶数据，支持相机、激光雷达、自车状态、标注、红绿灯、高精地图等多种模态
采用独立时间戳事件流存储各模态，无需预设频率，支持同步或异步跨数据集访问
整合8个真实世界驾驶数据集（3300小时、90000公里）及可配置合成数据集
展示跨数据集3D目标检测迁移和强化学习规划两种应用

论文链接:

https://arxiv.org/abs/2605.08084

2️⃣ Active Embodiment Identification with Reinforcement Learning for Legged Robots

关键词: 强化学习 | 腿部机器人 | 具身识别 | 形态推理

核心贡献:

提出主动具身识别方法，联合学习信息寻求行为和显式具身预测
使用历史增强URMA架构，通过与环境交互推断关节级和全局具身参数
支持不同形态机器人跨仿真环境进行自适应学习
无需预先定义机器人模型即可实现准确的具身参数估计

论文链接:

https://arxiv.org/abs/2605.08020

3️⃣ Evaluation of an Actuated Spine in Agile Quadruped Locomotion

关键词: 四足机器人 | 脊柱驱动 | 敏捷运动 | 仿生设计

核心贡献:

系统评估驱动脊柱对四足机器人敏捷运动的影响，涵盖高速奔跑、爬楼梯、陡坡攀爬、跨栏和爬行等场景
在MuJoCo仿真中使用Silver Badger机器人进行实证研究
结果显示脊柱使用显著增强机器人敏捷性，可克服更高楼梯、更陡斜坡和更高障碍
为四足机器人仿生设计提供量化评估依据

论文链接:

https://arxiv.org/abs/2605.07988

4️⃣ TAVIS: A Benchmark for Egocentric Active Vision and Anticipatory Gaze in Imitation Learning

关键词: 主动视觉 | 模仿学习 | 预期凝视 | 人形机器人

核心贡献:

提出TAVIS评估基础设施，包含TAVIS-Head（全局搜索）和TAVIS-Hands（局部遮挡）两个任务套件
基于GR1T2和Reachy2两种人形躯干本体，构建于IsaacLab之上
提出GALT（凝视-动作前置时间）新指标，量化学习策略中的预期凝视行为
实验显示主动视觉帮助具有任务条件性，多任务策略在分布偏移下性能显著下降

论文链接:

https://arxiv.org/abs/2605.07943

5️⃣ NoiseGate: Learning Per-Latent Timestep Schedules as Information Gating in World Action Models

关键词: 世界模型 | 视频-动作联合建模 | 信息门控 | 机器人操控

核心贡献:

提出NoiseGate方法，将每潜在变量时间步调度视为可学习的信息门控策略
通过改变潜在帧的噪声水平，调制其对动作token的Key/Value贡献可靠性
结合独立每潜在变量时间步采样、轻量级门控策略网络和任务奖励优化
在RoboTwin随机场景操控任务上取得一致性能提升

论文链接:

https://arxiv.org/abs/2605.07794

6️⃣ CommandSwarm: Safety-Aware Natural Language-to-Behavior-Tree Generation for Robotic Swarms

关键词: 自然语言接口 | 行为树 | 机器人集群 | 安全过滤

核心贡献:

提出CommandSwarm安全感知语言到行为树生成管道，将语音或文本命令转换为XML行为树
集成多语言翻译、命令级安全过滤、约束提示、LoRA适配LLM和确定性解析器验证
评估11个开源6.7B-14B参数LLM，Falcon3-Instruct-10B和Mistral-7B-v3在少样本设置中BLEU分数超0.60
LoRA适配后零样本BLEU从0.267提升至0.663，解析器接受语法有效性达72%

论文链接:

https://arxiv.org/abs/2605.07764

7️⃣ Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow

关键词: 生成式策略 | 策略学习 | 机器人操控 | 行为克隆

核心贡献:

提出Drifting Field Policy (DFP)，基于Wasserstein-2梯度流构建的非ODE一步生成式策略
将策略更新框架化为向软目标策略的逆向KL梯度流，每次更新对应概率空间中的梯度步
推导出简单可处理的替代损失，类似于基于top-K评论者选择动作的行为克隆
在Robomimic和OGBench多个操控任务上达到SOTA性能，超越ODE-based策略

论文链接:

https://arxiv.org/abs/2605.07727

8️⃣ BrickCraft: Visuomotor Skill Composition with Situated Manual Guidance for Long-Horizon Interlocking Brick Assembly

关键词: 视觉运动技能 | 长程规划 | 机器人组装 | 可组合性

核心贡献:

提出BrickCraft组合框架，用于长程可泛化的互锁砖块组装任务
采用相对公式建模组装过程，将复杂任务分解为有限的可重用原语技能集
通过情境手册桥接高层组装计划与物理执行差距，将组装意图投影到实时观察上
在有限演示下获得熟练组装技能，对未见过结构展现强组合泛化能力

论文链接:

https://arxiv.org/abs/2605.07605

9️⃣ MemCompiler: Compile, Don't Inject -- State-Conditioned Memory for Embodied Agents

关键词: 具身智能 | 记忆系统 | 状态感知 | 智能体架构

核心贡献:

提出MemCompiler框架，将记忆利用重新框架化为状态感知记忆编译，替代传统的静态记忆注入
学习的记忆编译器读取捕获智能体当前执行状态的结构化Brief State，动态选择和编译相关记忆
通过文本通道和潜在Soft-Mem通道传递可执行引导，保留文本无法表达的感知信息
在ALFWorld、EmbodiedBench和ScienceWorld上，开源骨干网络提升高达+129%，每步延迟降低60%

论文链接:

https://arxiv.org/abs/2605.07594

🔟 Operating Within the Operational Design Domain: Zero-Shot Perception with Vision-Language Models

关键词: 视觉语言模型 | 零样本感知 | 自动驾驶 | 安全关键系统

核心贡献:

评估视觉语言模型作为零样本"ODD传感器"的能力，适应不断演变的操作设计域定义
在自定义数据集和Mapillary Vistas上使用四种VLM进行零样本ODD分类和检测实证研究
提出基于定义锚定的思维链提示与角色分解方法表现最佳
为安全关键应用中基于ODD的透明有效感知铺平道路

论文链接:

https://arxiv.org/abs/2605.07649

📊 今日趋势

研究方向	论文数量	热度
🤖 机器人学习/操控	4篇	🔥🔥🔥
🧠 VLA/VLM应用	2篇	🔥🔥🔥
🎮 强化学习/策略学习	2篇	🔥🔥
🌍 世界模型/仿真	1篇	🔥🔥
🦿 四足/腿部机器人	2篇	🔥🔥

💡 核心洞察

多模态数据统一成为基础设施需求：123D框架通过统一API整合8个大规模驾驶数据集，展现了具身智能领域对标准化数据基础设施的迫切需求，这对跨数据集迁移学习和规模化训练至关重要
主动视觉与预期凝视成为模仿学习新焦点：TAVIS基准首次系统评估主动视觉在模仿学习中的贡献，揭示预期凝视（GALT指标）可作为评估学习策略类人程度的重要维度
状态感知记忆架构突破静态记忆局限：MemCompiler通过将记忆利用从"注入"转变为"编译"，根据智能体当前状态动态选择和编译相关记忆，在提升效果的同时将延迟降低60%
VLM在零样本安全关键感知中展现潜力：利用视觉语言模型进行零样本ODD（操作设计域）分类和检测，为自动驾驶等安全关键系统提供可适应、可审计的感知能力