📚 精选10篇最新论文,涵盖VLA、强化学习、世界模型、机器人操控、多模态学习等前沿领域
🔥 今日亮点
多模态自动驾驶数据统一框架123D | 主动视觉与预期凝视基准TAVIS | 状态感知记忆编译器MemCompiler
📑 论文详情
1️⃣ 123D: Unifying Multi-Modal Autonomous Driving Data at Scale
关键词: 多模态学习 | 自动驾驶 | 数据统一 | 机器人数据集
核心贡献:
提出123D开源框架,通过统一API整合多模态驾驶数据,支持相机、激光雷达、自车状态、标注、红绿灯、高精地图等多种模态
采用独立时间戳事件流存储各模态,无需预设频率,支持同步或异步跨数据集访问
整合8个真实世界驾驶数据集(3300小时、90000公里)及可配置合成数据集
展示跨数据集3D目标检测迁移和强化学习规划两种应用
论文链接:
https://arxiv.org/abs/2605.08084
2️⃣ Active Embodiment Identification with Reinforcement Learning for Legged Robots
关键词: 强化学习 | 腿部机器人 | 具身识别 | 形态推理
核心贡献:
提出主动具身识别方法,联合学习信息寻求行为和显式具身预测
使用历史增强URMA架构,通过与环境交互推断关节级和全局具身参数
支持不同形态机器人跨仿真环境进行自适应学习
无需预先定义机器人模型即可实现准确的具身参数估计
论文链接:
https://arxiv.org/abs/2605.08020
3️⃣ Evaluation of an Actuated Spine in Agile Quadruped Locomotion
关键词: 四足机器人 | 脊柱驱动 | 敏捷运动 | 仿生设计
核心贡献:
系统评估驱动脊柱对四足机器人敏捷运动的影响,涵盖高速奔跑、爬楼梯、陡坡攀爬、跨栏和爬行等场景
在MuJoCo仿真中使用Silver Badger机器人进行实证研究
结果显示脊柱使用显著增强机器人敏捷性,可克服更高楼梯、更陡斜坡和更高障碍
为四足机器人仿生设计提供量化评估依据
论文链接:
https://arxiv.org/abs/2605.07988
4️⃣ TAVIS: A Benchmark for Egocentric Active Vision and Anticipatory Gaze in Imitation Learning
关键词: 主动视觉 | 模仿学习 | 预期凝视 | 人形机器人
核心贡献:
提出TAVIS评估基础设施,包含TAVIS-Head(全局搜索)和TAVIS-Hands(局部遮挡)两个任务套件
基于GR1T2和Reachy2两种人形躯干本体,构建于IsaacLab之上
提出GALT(凝视-动作前置时间)新指标,量化学习策略中的预期凝视行为
实验显示主动视觉帮助具有任务条件性,多任务策略在分布偏移下性能显著下降
论文链接:
https://arxiv.org/abs/2605.07943
5️⃣ NoiseGate: Learning Per-Latent Timestep Schedules as Information Gating in World Action Models
关键词: 世界模型 | 视频-动作联合建模 | 信息门控 | 机器人操控
核心贡献:
提出NoiseGate方法,将每潜在变量时间步调度视为可学习的信息门控策略
通过改变潜在帧的噪声水平,调制其对动作token的Key/Value贡献可靠性
结合独立每潜在变量时间步采样、轻量级门控策略网络和任务奖励优化
在RoboTwin随机场景操控任务上取得一致性能提升
论文链接:
https://arxiv.org/abs/2605.07794
6️⃣ CommandSwarm: Safety-Aware Natural Language-to-Behavior-Tree Generation for Robotic Swarms
关键词: 自然语言接口 | 行为树 | 机器人集群 | 安全过滤
核心贡献:
提出CommandSwarm安全感知语言到行为树生成管道,将语音或文本命令转换为XML行为树
集成多语言翻译、命令级安全过滤、约束提示、LoRA适配LLM和确定性解析器验证
评估11个开源6.7B-14B参数LLM,Falcon3-Instruct-10B和Mistral-7B-v3在少样本设置中BLEU分数超0.60
LoRA适配后零样本BLEU从0.267提升至0.663,解析器接受语法有效性达72%
论文链接:
https://arxiv.org/abs/2605.07764
7️⃣ Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow
关键词: 生成式策略 | 策略学习 | 机器人操控 | 行为克隆
核心贡献:
提出Drifting Field Policy (DFP),基于Wasserstein-2梯度流构建的非ODE一步生成式策略
将策略更新框架化为向软目标策略的逆向KL梯度流,每次更新对应概率空间中的梯度步
推导出简单可处理的替代损失,类似于基于top-K评论者选择动作的行为克隆
在Robomimic和OGBench多个操控任务上达到SOTA性能,超越ODE-based策略
论文链接:
https://arxiv.org/abs/2605.07727
8️⃣ BrickCraft: Visuomotor Skill Composition with Situated Manual Guidance for Long-Horizon Interlocking Brick Assembly
关键词: 视觉运动技能 | 长程规划 | 机器人组装 | 可组合性
核心贡献:
提出BrickCraft组合框架,用于长程可泛化的互锁砖块组装任务
采用相对公式建模组装过程,将复杂任务分解为有限的可重用原语技能集
通过情境手册桥接高层组装计划与物理执行差距,将组装意图投影到实时观察上
在有限演示下获得熟练组装技能,对未见过结构展现强组合泛化能力
论文链接:
https://arxiv.org/abs/2605.07605
9️⃣ MemCompiler: Compile, Don't Inject -- State-Conditioned Memory for Embodied Agents
关键词: 具身智能 | 记忆系统 | 状态感知 | 智能体架构
核心贡献:
提出MemCompiler框架,将记忆利用重新框架化为状态感知记忆编译,替代传统的静态记忆注入
学习的记忆编译器读取捕获智能体当前执行状态的结构化Brief State,动态选择和编译相关记忆
通过文本通道和潜在Soft-Mem通道传递可执行引导,保留文本无法表达的感知信息
在ALFWorld、EmbodiedBench和ScienceWorld上,开源骨干网络提升高达+129%,每步延迟降低60%
论文链接:
https://arxiv.org/abs/2605.07594
🔟 Operating Within the Operational Design Domain: Zero-Shot Perception with Vision-Language Models
关键词: 视觉语言模型 | 零样本感知 | 自动驾驶 | 安全关键系统
核心贡献:
评估视觉语言模型作为零样本"ODD传感器"的能力,适应不断演变的操作设计域定义
在自定义数据集和Mapillary Vistas上使用四种VLM进行零样本ODD分类和检测实证研究
提出基于定义锚定的思维链提示与角色分解方法表现最佳
为安全关键应用中基于ODD的透明有效感知铺平道路
论文链接:
https://arxiv.org/abs/2605.07649
📊 今日趋势
| 研究方向 | 论文数量 | 热度 |
|---|---|---|
| 🤖 机器人学习/操控 | 4篇 | 🔥🔥🔥 |
| 🧠 VLA/VLM应用 | 2篇 | 🔥🔥🔥 |
| 🎮 强化学习/策略学习 | 2篇 | 🔥🔥 |
| 🌍 世界模型/仿真 | 1篇 | 🔥🔥 |
| 🦿 四足/腿部机器人 | 2篇 | 🔥🔥 |
💡 核心洞察
多模态数据统一成为基础设施需求:123D框架通过统一API整合8个大规模驾驶数据集,展现了具身智能领域对标准化数据基础设施的迫切需求,这对跨数据集迁移学习和规模化训练至关重要
主动视觉与预期凝视成为模仿学习新焦点:TAVIS基准首次系统评估主动视觉在模仿学习中的贡献,揭示预期凝视(GALT指标)可作为评估学习策略类人程度的重要维度
状态感知记忆架构突破静态记忆局限:MemCompiler通过将记忆利用从"注入"转变为"编译",根据智能体当前状态动态选择和编译相关记忆,在提升效果的同时将延迟降低60%
VLM在零样本安全关键感知中展现潜力:利用视觉语言模型进行零样本ODD(操作设计域)分类和检测,为自动驾驶等安全关键系统提供可适应、可审计的感知能力
夜雨聆风