AI经历了三代技术范式转移,从感知AI到生成式AI,再到Agentic ,接下来会是物理的时代.

作者：陆家嘴幽灵

来源：雪球

都说AI+资源，惭愧一直没有系统研究前面那项。最近开始学习AI，陆续整理一些笔记，在此做个记录与大家分享。

老黄曾说：AI经历了三代技术范式转移，从感知AI到生成式AI，再到Agentic AI，接下来会是物理AI的时代。

这一篇笔记就和大家分享物理AI。

一、物理AI概念

先和大家解释一下物理AI基础概念：

物理AI指能感知、理解并在真实世界交互的模型，是AI从数字走向真实物理世界的关键载体。过去我们惊叹大模型能编程、创作，但这些都停留在数字世界。物理AI更进一步，从看懂世界到改变世界，从虚拟走进现实。

所以具身智能其实是物理AI的技术子集。物理AI系统是包含大脑（世界模型、VLA模型）、身体（执行层）和训练场（仿真平台）的完整系统。

目前，物理AI核心场景包括：工业机器人、人形机器人和智能驾驶。

物理AI有五大模块，负责不同功能：

感知层用来认知世界、决策层是中枢大脑、验证层是风险防火墙、执行层实现价值落地、反馈层实现持续进化。

其中感知层不仅收集数据，还要通过多模态传感器融合技术对环境进行建模。

验证层是物理AI和传统AI最本质区别。在执行前系统会通过仿真等手段对结果进行检验，只有在模拟场景中达标才会传递到下一步执行层。

执行层是目前国内技术壁垒最集中环节。需要通过减速器、伺服电机、关节模组等部件，实时补偿机械误差、环境阻力等动态变量，实现精准控制。

来看看物理AI和传统AI对比：

最大的区别标红了。传统AI处理文本、代码等等，训练依赖网上的海量数据，几乎是免费的；但物理AI处理实体，训练依赖真实交互和传感器数据，成本极高，现在可用训练数据远远不够。

容错率也有很大差别。传统AI输出错误可以撤回；物理AI输出错误可能导致设备损坏或造成伤害。

传统AI缺乏对环境理解和泛化能力，随着行业向推理驱动趋势迈进，物理AI将会是AI竞赛的下一站。

二、物理AI产业链

来看看产业链：

1. 基础设施层：为物理AI提供算力、感知、执行的核心硬件，是技术壁垒最高的部分。门槛主要集中在高端芯片、高精密传感器、精密运动执行部件。

物理AI对算力、延时、可靠性的要求远高于传统AI，是各类芯片组合应用。如英伟达针对智驾和机器人的Thor平台。

感知层包括视觉、激光雷达、力传感器等技术，要求高精度感知和多模态数据同步；执行层包括减速器、电机、灵巧手等，要求高精度控制和实时响应。

2. 技术层：通过基础模型、仿真平台等，对算法进行训练验证，把基础设施层的算力、硬件转化为可调用的能力。

物理AI获取数据有两个办法：一是现实世界采集数据、二是生成仿真数据。现实获取难度大，所以现在核心是仿真。

目的是模拟仿真，还原真实世界，从而可以交互、训练、验证，还要求符合物理学规律世。这部分关键词包括世界模型、VLA、仿真平台、CAE等。

3. 集成、应用层：把技术转化为定制化解决方案，实现商业化。典型场景包括智能制造、自动驾驶、具身智能等。

智能制造比较常见，主要是工厂自动化、智能生产；自动驾驶主要提供感知决策、仿真测试、车辆控制；具身智能是整机控制、运动规划、人机交互等。

下面重点介绍物理AI技术层。

三、物理AI技术基础

先放定义：

物理仿真和数字孪生前文提到，是国内技术壁垒最高的环节。两者核心目的都是解决真实场景数据不足问题、降低实体测试成本和风险。

平时我们看到的可视化平台就是，比如交通模拟、能源管理、智慧城市等等。

另外，多模态感知将物理信号转化为数字信息；边缘计算保证数据低延时性。

下面重点介绍三大基础模型：世界模型、视觉语言模型（VLM）、视觉语言动作模型（VLA）。

这里画了个图。世界模型作为认知中枢，负责生成感知视频和仿真环境，给下游模型提供训练数据和评估场景；VLM作为大脑，负责理解、推理和任务规划；VLA作为小脑，负责输出动作、控制信号。最后，真实物理世界又将数据反馈给世界模型，使它迭代升级。

简单来说，世界模型的核心是构建一个逼近真实世界的虚拟环境，用于支持物理AI推理训练。举个例子，它让机器人能够做到看到、预测、并反应，比如你撒了一滩水在地上，下一步机器人会怎么做？

世界模型目前有三种：

1. 把世界画出来：基于视频生成模型，把二维像素变成三维，看起来像世界，但内部无法准确理解几何信息，无法让机器人做复杂的交互。

2. 把世界构建出来：比如李飞飞团队的技术。用三维方式把世界构建出来，不追求画面逼真，而是要精准建模物体位置、空间的几何关系和物理交互规则。它能做逻辑推理、碰撞检测和规划。缺点是需要高质量三维数据，要专业设备采集，成本更高、难度更大。

3. 把世界抽象出来。比如杨丽坤团队的方向。用结构学习方法，把世界抽象为机器人能理解的高维空间中的逻辑关系和因果关系，不追求人眼是否觉得像世界。优点是计算效率非常高。

下面介绍英伟达的物理AI生态：

英伟达在物理AI的布局逻辑是，提供从训练到部署的全套工具。老黄说任何做物理AI的公司都需要三台计算机：

训练计算机（DGX）：训练庞大的世界模型和基础模型；

仿真计算机（Omniverse、Cosmos）：构建高保真虚拟环境，生成训练数据，让AI在虚拟世界里低成本试错；

部署计算机（Jeston、Thor）：训练好的模型塞到机器人、汽车上，让它们在物理世界实时运行。

围绕这三台计算机，英伟达搭了一个庞大的生态。两个最关键的基座平台：

Omniverse：高保真数字世界构建工具。用于构建真实场景的3D数字孪生，模拟物理属性，是物理AI的训练场；

Cosmos：世界基础模型平台。根据场景描述，自动生成符合物理规律的动作视频和未来的状态预测。核心目的是解决训练数据不足。

总之就是Omiverse做仿真，Cosmos做生成。两个基座平台又延伸出不同工具：

比如Predict是给个图片或视频，预测接下来怎么进行；Transfer是把仿真环境生成的图像渲染成照片级别；Reason是负责理解，并根据视频做出规划决策。

最后放个落地场景：

四、竞争格局

先是海外基础模型层：

总体是一超多强格局。英伟达同时拥有仿真平台、世界模型、基座VLA、推理模型、训练芯片、推理芯片等，形成芯片+模型+工具链的生态。另外还有谷歌在transformer架构上有先发优势，在机器人操作领域持续突破；大家比较熟知的还有特斯拉FSD。

国内基础模型层：

特点是机器人公司在做基础模型，大厂在做大模型。原因是国内大厂主要还是聚焦AGI路线上，对物理AI特别是机器人硬件投入比较克制；人形机器人公司技术和融资能力强，有能力自建基础模型团队。

仿真平台目前还是英伟达Omniverse / Isaac主导，但开源生态在加速追赶。仿真平台是模型训练数据的核心来源，重要性不言而喻：

其中智元Genie是国内对标Isaac的综合性平台、索辰开物是基于生成式物理AI技术和实景渲染技术。

最后是两大场景，智驾和具身智能。这里不赘述，后续会专门发关于这两个主题的学习笔记。

五、物理AI总结

如果没有时间看上述这些，可以直接跳到这部分。结合专家调研，给出总结：

1. 物理AI最大瓶颈是数据：物理AI数据必须从真实世界采集，成本极高。因此需要构建从采集（真机、仿真、人类示教）、标准化、标注到安全治理的完整产业链。数据工程能力是物理AI公司的核心竞争力。

2. 竞争格局与壁垒：壁垒最高的是能构建本体+数据闭环+仿真+场景的全栈公司，包括：1）有落地场景的公司（如特斯拉、阿里）；2）有云平台和开发者生态的基建型公司（如英伟达）；3）高质量数据公司。

3. 海外厂商在前沿模型和高端本体领先；国内厂商优势在于硬件成本、供应链和快速落地能力。

4. 物理AI商业化落地制约因素：1）世界模型技术未收敛；2）数据瓶颈（单场景需十万小时级数据）；3）端侧芯片成本高，依赖进口；4）工业场景规模尚小，关键部件成本难以下降。

5.应用场景节奏：工业场景最先落地（物流、仓储、汽车产线，因空间规范、容错率高）；其次是服务场景（医院、养老院等）；家庭场景最难，需成本降至5-6万且安全性极高，但空间潜力最大。

6. 具身智能阶段演进：23年概念提出、24年基础验证、25年样机导入、26年小场景规模化。预计27-28年进入大规模量产阶段。

特斯拉的Optimus非常关键，如果大规模量产，会带动整个产业链硬件成本快速下探（伺服电机、电池等），供应链大部分在我们这，也会倒逼国内产业链升级。