CVPR 2026 全球最大物理AI数据集PhysInOne发布!港理工vLAR团队联合Meta打造

点这里👇关注我，获取具身智能技术

【具身智能】微信群成立！大家快扫码加入具身星球，将获得：最新具身智能技术和项目、❤️ 从入门到精通的学习路线、🤖 具身智能招聘(实习/校招/社招/升学)、具身智能公司名单和高校实验室/教师名单和 👀 行业动态和行业报告等。

▲【具身智能】微信群

当前最先进的视频生成模型虽然在影视、游戏行业大规模应用，画面也越来越逼真，但在物理规律面前却频频"翻车"，对于具身智能而言，“懂物理”是必经之路。

由香港理工大学计算系 vLAR Group 领衔，联合 Meta Reality 实验室、新加坡 Syai 等高校和机构组成的39人联合科研团队，推出了目前最大规模的物理AI数据集：包含200万条丰富标注的视频、153,810个动态3D场景、涵盖71种日常物理现象，其规模比现有数据集高出两个数量级。相关文章已被CVPR 2026接收。

项目主页：

https://vlar-group.github.io/PhysInOne.html

论文：https://arxiv.org/abs/2604.09415

代码：github.com/vLAR-group/PhysInOne

PhysInOne数据集一览

数据瓶颈卡住AI的“物理大脑” 。大模型的能力上限，是由高质量数据的规模与质量共同塑造的。ImageNet点燃了2D 视觉革命，ScanNet / ShapeNet 等大规模 3D 数据集推动了三维感知、重建与生成的关键突破。然而，当研究重心迈向4D，通往“物理理解”和通用 AI 的必经之路上，数据正成为最稀缺的资源。

4D 数据集被定义成在三维空间中，遵循物理规律的物体的位置随时间演化的数据集合。现有 4D 数据集普遍存在规模受限（难以支撑大模型训练）、场景过于简化（纯色背景或单一几何体）以及物理现象覆盖不足（仅涵盖少数类型）等关键问题。

PhysInOne与现有数据集对比

PhysInOne的诞生，彻底打破了这一困局。研究团队以经典物理学为基础，系统梳理了力学、光学、流体力学、磁学四大领域的71种基本物理现象：从重力、浮力、碰撞、摩擦，到反射、折射、激光传播，再到水流、弹性形变、磁吸、磁力平衡等等，几乎覆盖了日常生活中能见到的所有物理现象。

PhysInOne覆盖四大基本物理学领域

而为了将如此丰富的物理规律转化为高保真的视觉数据，PhysInOne在数据集的构建上投入了极大的工作量。为保证数据渲染质量，PhysInOne收集了2,231个高质量3D物体、528种复杂背景环境以及623种不同材质。其中，3D物体包含163个种类，材质涵盖塑料、金属、布料等。基于物理规律，PhysInOne设计了15万个不同场景以进行数据模拟。每个场景包含12个静态相机以及1个动态相机，经过多轮检查，保证场景物理运动以及相机视角的合理性。最终，PhysInOne包含了200万条渲染视频。

PhysInOne数据规模庞大

PhysInOne不仅数据量庞大，而且对每个场景都有严格的质量标准，其场景设定力求做到贴近现实。背景不再是空白或简单的幕布，而是涵盖了居家、办公室、工厂、海岸等各种真实室内外环境。数据集总计包含3,284种物理活动类型，分为单物理、双物理以及三物理场景，其场景内平均动态物体数量分别达到了3.9、6.3和7.8个物体，以充分展示复杂的物理过程。对于多物体场景，PhysInOne在设计之初便强调物理过程之间的真实耦合，避免简单、机械的物理过程叠加。

PhysInOne场景真实多样

对于每一个渲染视频，PhysInOne提供了相机位姿、深度图、分割图、物体运动轨迹、物理属性以及丰富的文本描述，涵盖三维几何信息以及语义信息。文本描述使用大模型优化人工标注，详细表述了视频中不同材质物体的运动详情以及对应的物理规律。

PhysInOne数据标注极其丰富

相比于“看起来真实”，PhysInOne尽可能让每一个运动过程都建立在真实物理规律和标准数值方法之上，并同时覆盖刚体、弹性体、塑性体、颗粒材料和流体等多种物理形态。其中，刚体运动、碰撞和破碎等常见物理现象由UE5 Chaos Physics 系统来处理；弹性体、塑性体和颗粒材料使用基于Taichi语言的MPM（物质点法）进行模拟；而流体则主要由SPH（光滑粒子流体动力学）来进行离散建模。对于其他物理现象，PhysInOne同样采用了明确的物理建模方式。例如，风力被建模为空间衰减的力场；激光根据反射定律计算反射方向；磁力交互则使用基于磁偶极场的公式进行建模。

PhysInOne具备可信的物理过程

PhysInOne不仅是数据仓库，更是一个综合物理能力评测基准。研究团队在四大前沿任务上验证了数据集的价值：

1. 物理感知视频生成

给视频生成模型输入一张图片、一段文字，其可以直接输出一段完整的视频。当前的生成指标倾向于让模型输出更加“生动”的视频内容，却不能衡量其中的物理规律合理性。据此，PhysInOne提出 Physical Motion Fidelity (PMF)，通过频域分析量化生成视频与真实物理运动的吻合程度。利用PhysInOne的数据微调模型，部分模型的PMF得以提高。

生成模型经PhysInOne微调后，结果的物理合理性得到明显提升。

2. 长短时未来帧预测

只有能够生成未来世界演化的可能轨迹，模型才算真正理解了动态环境的物理规律。对智能体而言，预测未来帧的能力是实现闭环感知、动作规划与执行长期任务的关键，赋予其推演动作对环境的影响的能力。PhysInOne 支持从连续 10 帧的短期预测到最长 2.6 秒的时间序列建模，覆盖单目与多视角设置，可直接用于机器人决策模型的训练。

现有模型通过PhysInOne数据集实现长短时未来帧预测

3. 物理属性估计

精准的物理属性值估计是机器人控制、未来状态预测、可微仿真等许多下游任务的物理求解器能够工作的前提。相比于只提供视频或简单标签，PhysInOne还提供决定物体运动的关键物理参数，并通过测试PAC-NeRF、GIC等工作，展示即使是最先进的方法，在面对真实复杂的背景和多物体交互时，仍有提升空间。

使用现有方法估计的物理属性进行定性模拟的结果

4. 运动迁移

运动和物理交互的跨视频迁移能力，是模型理解动态物理规律的关键指标。PhysInOne 的实验结果表明，现有方法在简单运动迁移上效果尚可，但在多物体复杂交互场景中表现不足。这说明当前模型对物理规律的理解和迁移能力仍然有限。PhysInOne 中丰富的复杂物理场景为评估这类能力提供了重要基准，并为影视制作、动画生成和视频编辑等应用提供了数据支持。

PhysInOne可被用来训练模型实现运动迁移预测

PhysInOne 由香港理工大学 vLAR Group 主导完成，九位共同第一作者为该校博士生周思远，王和钧，程虎，李金玺，王东升，姜珺伟，金一敩，黄嘉悦，毛诗炜，通讯作者为该校计算系杨波教授和Meta Reality实验室的邹楚航研究员。项目共汇聚 39 位来自计算机视觉、计算机图形学、机器人与机器学习领域的研究学者。PhysInOne所有3D资产均来自Sketchfab、FAB、BlenderKit等平台，且团队将逐步放出所有3D资产，背景环境，可交互物体，渲染脚本，模拟代码等资源以供二次开发。