📄 今日追踪到 7 篇相关论文
📋 今日速览
• VLA 模型与 Action Tokenization · 3篇
• LLM/VLM 高层任务规划 · 4篇
━━━━━━━━━━━━━━━━━━━━━━━━
▎VLA 模型与 Action Tokenization · 3篇
1. Learning to Fold: prizewinning solution at LeHome Challenge 2026 (1st place online, 2nd offline)arXiv:2606.27163v1
作者机构: Independent Researcher
核心贡献: 提出了一套针对双手机器人衣物折叠任务的强化学习系统,在模拟回合获第1名(79.63%成功率),真实回合获第2名。核心创新包括:将价值函数直接集成到VLA策略中(作为辅助头),无需额外critic;结合AWR(优势加权采样)和RECAP(优势条件化)两种方式利用优势信号优化流匹配VLA;设计了异步分布式训练/数据收集管线,以及通过Thompson采样在线优化推断超参数的方法。此外,开发了包含相机对齐工具、强数据增强和DAgger人机协作数据收集的sim-to-real迁移方案。
方法简述: 采用基于π0.5的流匹配VLA模型(SigLIP+Gemma-2B+Gemma-300M动作专家)。RL训练中,通过AWR按优势加权采样帧,同时将优势作为条件输入(RECAP风格)实现无分类器引导。策略自身通过辅助头预测成功概率、完成度等,作为价值函数。奖励从二元成功信号致密化为基于关键点距离的中期检查点。推断时通过Thompson采样优化执行长度、引导尺度等参数。Sim-to-real阶段使用大量数据增强、运动速度对齐和DAgger数据微调。
简短评述: 该工作巧妙地将价值函数嵌入VLA,结合高效的工程优化和DAgger,实现了从模拟到真实的成功迁移,并取得竞争顶尖成绩。
— — — — — — — — — — — — — — —
2. In-Context World Modeling for Robotic ControlarXiv:2606.26025v2
作者机构: 复旦大学、上海创新研究院、同济大学
核心贡献: 将VLA模型在新配置下的泛化失败重新定义为测试时的系统识别问题,并提出In-Context World Modeling (ICWM)框架。ICWM通过上下文窗口隐式恢复系统动力学,无需参数更新或任务特定演示即可适应新配置。实验证明,ICWM在未知摄像机视角、语义变化和机器人形态变化下均显著优于标准基线。
方法简述: 在任务执行前,机器人执行短序列随机探索并记录视觉转换片段,将这些自生成的任务无关交互作为上下文输入VLA模型。模型通过序列建模隐式提取当前系统的因果结构(如控制映射和视角),从而在推理时生成与物理设置对齐的动作。
简短评述: 该工作将上下文学习从“指定任务”重新定义为“理解系统”,为机器人零样本适应新配置提供了有效且轻量级的范式。
— — — — — — — — — — — — — — —
3. FORCE: Efficient VLA Reinforcement Fine-Tuning via Value-Calibrated Warm-up and Self-DistillationarXiv:2606.26006v1
作者机构: 中国科学院自动化研究所、北京人工智能研究院、北京大学
核心贡献: 提出FORCE三阶段框架,解决VLA模型离线到在线强化微调中的“初始遗忘”和低效策略更新问题。引入分布预热机制,通过在线rollout校准Q函数支持域,避免性能崩溃。设计值引导自蒸馏(VGPD)模块,基于动态优势过滤选择高价值动作进行策略更新,无需人工干预。在仿真和真实机器人任务上达到近100%成功率,样本效率提升32.5%,超越现有方法。
方法简述: 第一阶段用Cal-QL和BC混合目标离线预训练;第二阶段收集少量在线rollout与离线数据混合,用保守约束扩展Q函数支持域;第三阶段在线微调,VGPD通过采样多个候选动作,过滤低优势动作,对高价值动作加权蒸馏来更新策略。
简短评述: 该工作系统解决了VLA模型从模仿学习到强化学习的平滑过渡难题,显著提升了样本效率与稳定性,是迈向自主机器人部署的重要进展。
— — — — — — — — — — — — — — —
▎LLM/VLM 高层任务规划 · 4篇
4. PhysReflect-VLA: Physical Feasibility and Self-Reflective Regulation for Reliable Vision-Language-Action PoliciesarXiv:2606.27146v1
作者机构: 厦门大学人工智能学院 & 阿伯里斯特威斯大学计算机科学系
核心贡献: 本文提出一个即插即用的执行时可靠性框架,为VLA策略引入物理可行性评估和结构化自省。通过双向物理一致性模型(前向与逆向)对候选动作进行实时筛选,并利用LLM反射模块在状态偏差时生成纠正性引导,形成闭环控制。两阶段训练方法稳定整合可行性建模及反射学习,在五类长程操控任务上平均成功率提升5.4%。
方法简述: 运行时,VLA策略采样多个候选动作片段;双向一致性模型(前向状态预测+逆向动作重建)计算每个候选的“一致性能量”以筛选物理可行动作。执行后,若预测与观测状态偏差超阈值,反射模块将失败上下文映射为纠正性文本提示,更新指令后驱动策略重采样。
简短评述: 该工作的亮点在于首次将物理可行性检查与在线自省反思机制结合,显著提升了VLA策略在接触密集型任务中的执行鲁棒性。
— — — — — — — — — — — — — — —
5. PAMAE: Phase-Aware-MoE Action Experts Towards Reliable Flow-Matching Vision-Language-Action PoliciesarXiv:2606.27144v1
作者机构: 厦门大学、亚伯里斯特威斯大学
核心贡献: 针对流匹配VLA策略在多阶段操作中共享动作专家无法捕获阶段特定控制模式的问题,提出即插即用的阶段感知混合专家模块PAMAE。通过稀疏专家混合替换原有动作专家,并引入基于执行阶段线索的路由机制,在不改变预训练骨干的前提下实现阶段一致的动作生成。采用两阶段训练(专家预热+阶段监督路由)稳定专家专业化,在模拟任务中成功率提升最高9.2%。
方法简述: 保持VLA骨干不变,将原共享动作专家替换为M个专家的稀疏MoE。阶段感知路由器根据上下文、执行状态描述符(抓手、动作幅度、进度)及流时间τ分配专家权重,训练中利用规则定义的粗粒度阶段标签(预接触/接触/后接触)提供弱监督,包括阶段预测损失、路由对齐损失和平滑损失。两阶段训练:第一阶段仅用流匹配损失预热专家;第二阶段引入阶段监督,后期松弛辅助损失以优化动作质量。推理无需阶段标签。
简短评述: 该工作通过轻量级阶段感知专家路由,有效提升了流匹配VLA策略在多阶段操作中的动作可靠性和阶段一致性。
— — — — — — — — — — — — — — —
6. ForesightSafety-VLA: A Unified Diagnostic Safety Benchmark for Vision-Language-Action ModelsarXiv:2606.27079v1
作者机构: 中国科学院自动化研究所、北京安全AI与超级对齐重点实验室、北京AI安全与治理研究所、中国人民大学高瓴人工智能学院、中国科学院大学
核心贡献: 本文提出了首个面向VLA系统的统一诊断性安全基准ForesightSafety-VLA,定义了涵盖物理交互、指令和感知三大维度的13类安全分类。通过受控的场景结构、语言命令和视觉观测变化,从源头诊断安全失效,而非仅依赖聚合分数。引入过程级安全度量(累积安全成本和风险暴露时间),结合四象限结果分解,揭示安全风险本质。
方法简述: 在RoboTwin中构建66个安全增强基础场景,采用双阈值安全监控协议,连续监测力/力矩、热/能量等指标;通过危险注入、约束收紧和时间前提插入将安全融入任务设计,在三个可控维度下评估VLA策略并分解失败来源。
简短评述: 该工作将安全作为VLA系统的主要评估目标,证明更强模型通常更安全,安全与感知、基础和控制能力紧密耦合,为诊断和提升具身安全提供了系统化工具。
— — — — — — — — — — — — — — —
7. Learning Action Priors for Cross-embodiment Robot ManipulationarXiv:2606.26095v1
作者机构: 中国人民大学、北卡罗来纳大学教堂山分校、多伦多大学、亚马逊
核心贡献: 提出两阶段训练框架,先仅用动作轨迹独立学习动作先验(流匹配编码器-解码器),再将其迁移至VLA训练。该方法解决了跨具身VLA中动作模块缺乏运动先验导致的收敛慢、长尾任务性能差等问题。实验显示更快收敛、更高成功率,且在数据稀疏的真实任务中提升显著。
方法简述: 第一阶段,基于流匹配的编码器-解码器在无视觉/语言输入下从动作序列中学习运动先验;第二阶段,重用解码器作为VLA动作头,并通过早期潜在蒸馏对齐VLM与动作嵌入空间,同时利用编码器压缩历史轨迹为单一token注入时序上下文。
简短评述: 该工作通过解耦动作先验学习与跨模态对齐,高效提升了跨具身机器人策略的性能与训练效率。
━━━━━━━━━━━━━━━━━━━━━━━━
BinaryPulse · 2026年06月28日
夜雨聆风