上海AI实验室等提出SIM1:物理对齐仿真器实现柔性物体操纵零样本迁移,折叠衣服成功率达90%

在机器人领域，让机器学会“拿捏”柔软的物体——比如叠一件T恤、翻一个毛巾，一直是个让人头疼的难题。相比于硬邦邦的刚体，柔性物体（Deformable Objects）的形状随动而变，接触关系极其复杂。虽然现在的视觉语言动作模型（Vision-Language-Action, VLA）在刚体操作上已经玩得很溜，但在面对“软绵绵”的挑战时，往往因为缺乏高质量的训练数据而显得力不从心。

最近，来自上海人工智能实验室（Shanghai AI Lab）、复旦大学、上海交通大学和北京大学的研究团队提出了一项非常有意思的研究：SIM1。作者们的核心思路：既然现实中采集数据太贵太慢，那我们就去仿真里“造”数据。但传统的仿真往往“不接地气”，甚至仿真里的衣服像橡皮筋一样乱飞。SIM1 通过一套名为“真实到仿真再到真实（Real-to-Sim-to-Real, R2S2R）”的闭环流程，把仿真器变成了高精度的“数据放大器”。

论文地址: https://arxiv.org/abs/2604.08544
项目主页: https://internrobotics.github.io/sim1.github.io/
代码仓库: https://github.com/InternRobotics/SIM1（已开源）

为什么折叠衣服这么难？

在聊 SIM1 之前，我们先得看看之前的方案卡在哪了。

以往的仿真到现实（Sim-to-Real, S2R）迁移，在处理刚体时效果不错，但在处理布料时会遇到三个“大坑”：首先是几何不匹配，仿真里的衣服模型往往是随手画的，和现实中的尺寸、纹理对不上；其次是动力学脆弱，物理引擎大多是为刚体优化的，模拟布料时经常出现过度拉伸、穿模或者不自然的抖动；最后是动作基元太简单，简单的“抓取-放置”根本搞不定复杂的折叠动作。

研究团队认为，仿真之所以失败，不是因为它“假”，而是因为它没有“接地（Grounding）”。如果仿真里的物理规律和现实不一致，那生成的成千上万条数据也不过是“雾里看花”。

SIM1 的三步走：从物理对齐到数据爆发

为了解决这些问题，SIM1 构建了一个由三部分组成的严密框架，分别是场景数字化（SIM1-Scene）、物理仿真对齐（SIM1-Sim）和结构化数据生成（SIM1-DataGen）。

1. SIM1-Scene：给衣服做个高精度“数字孪生”

第一步是解决“长得像”的问题。研究团队动用了专业级的 3D 扫描仪（EinScan Rigil Pro），将 T 恤挂在模特身上，通过激光扫描和 RGB 图像融合，重建出亚毫米级精度的几何模型。经过泊松重建（Poisson Reconstruction）等后期处理，这些衣服在仿真里不仅尺寸精准，连细微的褶皱和纹理都得到了还原。

2. SIM1-Sim：让布料不再像“橡皮筋”

这可能是 SIM1 最核心的技术改进。为了让仿真里的布料“手感”真实，研究团队引入了增强顶点块下降（Augmented Vertex Block Descent, AVBD）解算器。

传统的物理解算器在处理机器人抓取布料时，经常会出现局部拉伸过大的情况。SIM1 在解算过程中加入了一个显式的应变约束（Strain Constraint）。简单来说，就是给布料的每一条边都设置一个“警戒线”，如果拉伸超过了预设比例（论文中设为 5%），系统就会激活一个虚拟的弹性约束力。

其数学表达为：

当约束被违反时，会引入一个惩罚能量项：

这种设计有效防止了穿模和过度变形。随后，研究员通过双向同步的基础设施，让仿真机器人和真实机器人做同样的动作，通过视觉比对来微调杨氏模量、摩擦力等物理参数，直到两者的表现看起来“一模一样”。

3. SIM1-DataGen：结构化操纵合成

有了精准的仿真器，SIM1-DataGen 负责生成海量数据。它采用“结构化分解”策略：

输入：少量的真实专家演示数据。
处理：将演示分解为“交互段”和“移动段”。系统随机组合这些抓取点，并利用基于扩散模型的轨迹生成（Diffusion-based Trajectory Generation）来补全过渡动作。
输出：物理真实且视觉多样化的合成轨迹。

最后，通过一个基于 ResNet-18 和 Transformer 的视频判别器过滤掉物理不合理的样本，并结合 Blender 进行视觉随机化渲染。

实验结果：纯仿真训练也能“吊打”现实基准？

研究团队在 ARX ACONE 双臂机器人上进行了测试，任务是长周期（超过 20 秒）的 T 恤折叠。

实验结果：

零样本迁移成功率：“仅”使用纯仿真生成的合成数据训练的模型，在真实环境下的 T 恤折叠任务中达到了 90% 的成功率。
泛化能力拔群：在纹理泛化测试中，SIM1 训练的模型成功率比仅用真实数据训练的模型高出 50% 以上。
数据等效性：有意思的是，研究发现，大约 15 条 仿真轨迹的效果等同于 1 条昂贵的现实采集轨迹。

现实中采集一条轨迹的成本约为 2.71 美元，而 SIM1 仿真生成的成本仅为 0.10 美元，降本幅度高达 27 倍。

零样本 Sim-to-Real 迁移的定性结果。模型甚至能成功折叠训练集中完全未出现的 Polo 衫（纯零样本泛化）

一点思考

SIM1 的成功给我们提供了一个非常清晰的信号：在具身智能（Embodied AI）领域，数据的“量”固然重要，但“物理对齐”的“质”才是通向通用的关键。

通过把复杂的物理规律“揉”进仿真器，研究团队实际上是为机器人创造了一个完美的“练功房”。这种 R2S2R 的闭环思维，或许会成为未来解决更多柔性物体操纵的标准范式。目前代码已在 GitHub 开源。