作者:陆家嘴幽灵
来源:雪球
都说AI+资源,惭愧一直没有系统研究前面那项。最近开始学习AI,陆续整理一些笔记,在此做个记录与大家分享。
老黄曾说:AI经历了三代技术范式转移,从感知AI到生成式AI,再到Agentic AI,接下来会是物理AI的时代。
这一篇笔记就和大家分享物理AI。
一、物理AI概念
先和大家解释一下物理AI基础概念:

物理AI指能感知、理解并在真实世界交互的模型,是AI从数字走向真实物理世界的关键载体。过去我们惊叹大模型能编程、创作,但这些都停留在数字世界。物理AI更进一步,从看懂世界到改变世界,从虚拟走进现实。
所以具身智能其实是物理AI的技术子集。物理AI系统是包含大脑(世界模型、VLA模型)、身体(执行层)和训练场(仿真平台)的完整系统。
目前,物理AI核心场景包括:工业机器人、人形机器人和智能驾驶。
物理AI有五大模块,负责不同功能:

感知层用来认知世界、决策层是中枢大脑、验证层是风险防火墙、执行层实现价值落地、反馈层实现持续进化。
其中感知层不仅收集数据,还要通过多模态传感器融合技术对环境进行建模。
验证层是物理AI和传统AI最本质区别。在执行前系统会通过仿真等手段对结果进行检验,只有在模拟场景中达标才会传递到下一步执行层。
执行层是目前国内技术壁垒最集中环节。需要通过减速器、伺服电机、关节模组等部件,实时补偿机械误差、环境阻力等动态变量,实现精准控制。
来看看物理AI和传统AI对比:

最大的区别标红了。传统AI处理文本、代码等等,训练依赖网上的海量数据,几乎是免费的;但物理AI处理实体,训练依赖真实交互和传感器数据,成本极高,现在可用训练数据远远不够。
容错率也有很大差别。传统AI输出错误可以撤回;物理AI输出错误可能导致设备损坏或造成伤害。
传统AI缺乏对环境理解和泛化能力,随着行业向推理驱动趋势迈进,物理AI将会是AI竞赛的下一站。
二、物理AI产业链
来看看产业链:

1. 基础设施层:为物理AI提供算力、感知、执行的核心硬件,是技术壁垒最高的部分。门槛主要集中在高端芯片、高精密传感器、精密运动执行部件。
物理AI对算力、延时、可靠性的要求远高于传统AI,是各类芯片组合应用。如英伟达针对智驾和机器人的Thor平台。
感知层包括视觉、激光雷达、力传感器等技术,要求高精度感知和多模态数据同步;执行层包括减速器、电机、灵巧手等,要求高精度控制和实时响应。
2. 技术层:通过基础模型、仿真平台等,对算法进行训练验证,把基础设施层的算力、硬件转化为可调用的能力。
物理AI获取数据有两个办法:一是现实世界采集数据、二是生成仿真数据。现实获取难度大,所以现在核心是仿真。
目的是模拟仿真,还原真实世界,从而可以交互、训练、验证,还要求符合物理学规律世。这部分关键词包括世界模型、VLA、仿真平台、CAE等。
3. 集成、应用层:把技术转化为定制化解决方案,实现商业化。典型场景包括智能制造、自动驾驶、具身智能等。
智能制造比较常见,主要是工厂自动化、智能生产;自动驾驶主要提供感知决策、仿真测试、车辆控制;具身智能是整机控制、运动规划、人机交互等。
下面重点介绍物理AI技术层。
三、物理AI技术基础
先放定义:

物理仿真和数字孪生前文提到,是国内技术壁垒最高的环节。两者核心目的都是解决真实场景数据不足问题、降低实体测试成本和风险。
平时我们看到的可视化平台就是,比如交通模拟、能源管理、智慧城市等等。
另外,多模态感知将物理信号转化为数字信息;边缘计算保证数据低延时性。
下面重点介绍三大基础模型:世界模型、视觉语言模型(VLM)、视觉语言动作模型(VLA)。

这里画了个图。世界模型作为认知中枢,负责生成感知视频和仿真环境,给下游模型提供训练数据和评估场景;VLM作为大脑,负责理解、推理和任务规划;VLA作为小脑,负责输出动作、控制信号。最后,真实物理世界又将数据反馈给世界模型,使它迭代升级。
简单来说,世界模型的核心是构建一个逼近真实世界的虚拟环境,用于支持物理AI推理训练。举个例子,它让机器人能够做到看到、预测、并反应,比如你撒了一滩水在地上,下一步机器人会怎么做?
世界模型目前有三种:
1. 把世界画出来:基于视频生成模型,把二维像素变成三维,看起来像世界,但内部无法准确理解几何信息,无法让机器人做复杂的交互。
2. 把世界构建出来:比如李飞飞团队的技术。用三维方式把世界构建出来,不追求画面逼真,而是要精准建模物体位置、空间的几何关系和物理交互规则。它能做逻辑推理、碰撞检测和规划。缺点是需要高质量三维数据,要专业设备采集,成本更高、难度更大。
3. 把世界抽象出来。比如杨丽坤团队的方向。用结构学习方法,把世界抽象为机器人能理解的高维空间中的逻辑关系和因果关系,不追求人眼是否觉得像世界。优点是计算效率非常高。
下面介绍英伟达的物理AI生态:

英伟达在物理AI的布局逻辑是,提供从训练到部署的全套工具。老黄说任何做物理AI的公司都需要三台计算机:
训练计算机(DGX):训练庞大的世界模型和基础模型;
仿真计算机(Omniverse、Cosmos):构建高保真虚拟环境,生成训练数据,让AI在虚拟世界里低成本试错;
部署计算机(Jeston、Thor):训练好的模型塞到机器人、汽车上,让它们在物理世界实时运行。
围绕这三台计算机,英伟达搭了一个庞大的生态。两个最关键的基座平台:
Omniverse:高保真数字世界构建工具。用于构建真实场景的3D数字孪生,模拟物理属性,是物理AI的训练场;
Cosmos:世界基础模型平台。根据场景描述,自动生成符合物理规律的动作视频和未来的状态预测。核心目的是解决训练数据不足。
总之就是Omiverse做仿真,Cosmos做生成。两个基座平台又延伸出不同工具:

比如Predict是给个图片或视频,预测接下来怎么进行;Transfer是把仿真环境生成的图像渲染成照片级别;Reason是负责理解,并根据视频做出规划决策。
最后放个落地场景:

四、竞争格局
先是海外基础模型层:

总体是一超多强格局。英伟达同时拥有仿真平台、世界模型、基座VLA、推理模型、训练芯片、推理芯片等,形成芯片+模型+工具链的生态。另外还有谷歌在transformer架构上有先发优势,在机器人操作领域持续突破;大家比较熟知的还有特斯拉FSD。
国内基础模型层:

特点是机器人公司在做基础模型,大厂在做大模型。原因是国内大厂主要还是聚焦AGI路线上,对物理AI特别是机器人硬件投入比较克制;人形机器人公司技术和融资能力强,有能力自建基础模型团队。
仿真平台目前还是英伟达Omniverse / Isaac主导,但开源生态在加速追赶。仿真平台是模型训练数据的核心来源,重要性不言而喻:

其中智元Genie是国内对标Isaac的综合性平台、索辰开物是基于生成式物理AI技术和实景渲染技术。
最后是两大场景,智驾和具身智能。这里不赘述,后续会专门发关于这两个主题的学习笔记。
五、物理AI总结
如果没有时间看上述这些,可以直接跳到这部分。结合专家调研,给出总结:
1. 物理AI最大瓶颈是数据:物理AI数据必须从真实世界采集,成本极高。因此需要构建从采集(真机、仿真、人类示教)、标准化、标注到安全治理的完整产业链。数据工程能力是物理AI公司的核心竞争力。
2. 竞争格局与壁垒:壁垒最高的是能构建本体+数据闭环+仿真+场景的全栈公司,包括:1)有落地场景的公司(如特斯拉、阿里);2)有云平台和开发者生态的基建型公司(如英伟达);3)高质量数据公司。
3. 海外厂商在前沿模型和高端本体领先;国内厂商优势在于硬件成本、供应链和快速落地能力。
4. 物理AI商业化落地制约因素:1)世界模型技术未收敛;2)数据瓶颈(单场景需十万小时级数据);3)端侧芯片成本高,依赖进口;4)工业场景规模尚小,关键部件成本难以下降。
5.应用场景节奏:工业场景最先落地(物流、仓储、汽车产线,因空间规范、容错率高);其次是服务场景(医院、养老院等);家庭场景最难,需成本降至5-6万且安全性极高,但空间潜力最大。
6. 具身智能阶段演进:23年概念提出、24年基础验证、25年样机导入、26年小场景规模化。预计27-28年进入大规模量产阶段。
特斯拉的Optimus非常关键,如果大规模量产,会带动整个产业链硬件成本快速下探(伺服电机、电池等),供应链大部分在我们这,也会倒逼国内产业链升级。
夜雨聆风