具身智能相关论文开源代码推荐20260430-夜雨聆风

具身智能相关论文开源代码推荐20260430

点击下方卡片，关注【具身智能小站】公众号

商务请联系：jszn576

注：具身交流群可加v：yzz010329

📅 2026年4月

👋 大家好！

❝

来了！2026 年新开始的一个系列，主要是整理具身智能领域最近发表的提供开源代码或数据集的项目(论文)，希望对相关领域的小伙伴有所帮助。获取这些论文的开源项目链接，可以直接在本文中查看。欢迎转发和关注！！👇

📊 今日数据统计

领域	篇数
🤖 具身智能	4 篇

🤖 开源论文（重点板块）

🔬 Vision-Language-Action 在机器人学中的研究：数据集、基准测试与数据引擎综述

📌 Embodied AI · VLA · 数据集 · 仿真 · 数据引擎

✨ 首次从数据视角系统梳理VLA领域，提出数据集、基准与数据引擎三支柱框架，揭示“保真度-成本”根本性权衡

📖 VLA模型正成为具身智能的主流范式，但其进展日益受限于数据基础设施而非模型架构。本综述从数据视角出发，系统分析了三大支柱：1）数据集：将真实与合成数据按具身多样性、模态组成和动作空间分类，揭示了长期存在的“保真度-成本”权衡；2）基准测试：从任务复杂度和环境结构两个维度分析现有协议，发现其在组合泛化和长时推理评估上的结构性缺陷；3）数据引擎：审视了基于仿真、视频重建和自动任务生成的三大范式，指出其在物理 grounding 和 sim-to-real 迁移上的共同局限。最后，本文提炼了四个开放挑战：表示对齐、多模态监督、推理评估和可扩展数据生成，并呼吁将数据基础设施作为 VLA 研究的一流问题。

💡 未来VLA的突破将不再依赖更大的模型，而是依赖于高保真数据引擎与结构化评估协议的协同设计。

🔗 项目链接：https://github.com/ziyaow1010/vla-datasets-benchmarks

🔬RL Token：基于视觉-语言-动作模型引导的高效在线强化学习

📌 VLA · 在线RL · 样本效率 · 微调 · 真实机器人

✨ 引入“RL Token”作为VLA与轻量RL策略间的紧凑接口，仅需数小时真实机器人交互即可在毫米级精度任务上实现3倍速度提升

📖 预训练的VLA模型虽具备广泛的通用操作能力，但在需要毫米级精度的任务关键阶段（如螺丝安装、以太网插头插入）往往动作缓慢、易失败。为此本文提出RL Token方法：首先在VLA中训练一个编码器-解码器，将VLA的内部特征压缩为一个紧凑的“RL Token”表示；然后冻结VLA，仅在该表示之上训练一个小型的actor-critic网络进行在线RL微调，并利用VLA的参考动作对策略进行正则化约束。在四项真实机器人任务上，RL Token仅需数分钟到数小时的在线交互，即可将关键阶段的执行速度提升3倍，成功率大幅提高，部分任务速度甚至超越人类遥操作。

💡 通过解耦“VLA的常识感知”与“RL的精细优化”，我们能够让海量预训练模型在物理世界中实现样本高效的在线进化。

🔗 项目链接：https://pi.website/research/rlt

🔬 视觉-语言-动作模型的安全性：威胁、挑战、评估与机制

📌 VLA安全 · 后门攻击 · 越狱 · 鲁棒性 · 对齐

✨ 首个系统性综述VLA安全领域，提出训练时与推理时的攻防双向时间轴框架，覆盖攻击、防御、评估与六大部署场景

📖 VLA模型正成为通用机器人的主导范式，但其“具身”特性带来了全新的安全挑战：物理后果不可逆、跨模态攻击面广、实时防御延迟敏感、长程轨迹误差累积、以及数据供应链脆弱。本综述首次系统梳理了VLA安全领域，按“攻击时间”（训练时 vs. 推理时）和“防御时间”两条轴线组织现有工作。文章详细分类了训练时的数据投毒、后门攻击（包括利用动作分块机制的“静默漂移”）和推理时的语义越狱、视觉对抗扰动、物理环境干预等攻击手段；同时分析了对应的防御策略，包括约束性策略优化、运行时监控、控制屏障函数等。此外，本文还系统评估了现有安全基准测试（如VLA-Risk、SafeAgentBench）与评估指标，并讨论了自动驾驶、家庭服务、工业制造等六大部署场景下的安全挑战。

💡 VLA系统的安全性不能事后修补，必须作为与能力、效率同等重要的“一等公民”在设计之初就纳入考量。

🔗 项目链接：https://github.com/LiQiilii/Awesome-VLA-Safety

🔬 IntentVLM：基于前向-逆向建模的视频-语言模型开放词汇意图识别

📌 意图识别 · 视频-语言模型 · 开放词汇 · 具身智能 · 人机交互

✨ 受认知科学前向-逆向建模启发，将意图识别分解为“候选生成—结构化选择”两步，在开放词汇意图识别上达到人类水平

📖 社交机器人要有效服务人类，必须具备准确理解人类意图的能力。然而现有方法往往将意图识别简化为闭集分类（从预定义标签中选择），且多依赖静态图像，难以捕捉复杂场景中的时序动态与开放词汇需求。本文提出IntentVLM，一个新颖的两阶段视频-语言框架：第一阶段，模型根据视频和文本查询，生成一组多样化的“目标候选”（即可能的意图解释）；第二阶段，另一个模型对这些候选进行结构化评估与排序，选出最合理的意图。这种设计有效减少了纯端到端推理中的“幻觉”现象。在IntentQA和Inst-IT Bench两个基准上，IntentVLM达到了80%的准确率，比基线提升30%，且与人类水平持平，同时未出现灾难性遗忘。

💡 将抽象的“意图推理”显式地分解为“可能目标的生成”与“基于证据的选择”，是让视频语言模型获得类人社会认知能力的关键一步。

🔗 项目链接：hhttps://github.com/hamedR96/IntentVLM

一般的星球时间限制是1年，我们这个进去就是终身进去了，不会有时间限制。还有可以结合更多志同道合的朋友