物理AI是可以理解真实世界的AI系统,物理 AI 要回答世界接下来如何变化,实体发生动作之后,世界又会怎么反应。
物理AI需要理解高维、连续、含噪的数据(如视频、传感器数据);能构建预测模型,洞察环境演变及自身行动的影响;能进行规划和核心层面的推理;并且是可控且安全的。
黄仁勋提到AI 经历了三代技术范式的转移,从感知 AI 到生成式 AI,再到 Agentic AI,接下来将会是物理 AI(Physical AI)的时代。我们正在进入物理 AI 的时代,即能够运行、推理、计划和行动的 AI。


物理世界的AI驱动,最初也是依赖人工规则驱动,使用硬编码逻辑,场景适应性差。在数据驱动时代,依赖海量数据统计学习,缺乏环境理解与泛化能力。目前进入了推理驱动的3.0时代,具备环境推理、因果理解与规划能力,支持复杂任务闭环决策。
以自动驾驶为例:1.0 是工程师把所有路况写成规则,而 2.0 是模型从海量数据里自己学,但本质还是 “照抄人类行为”,不懂为什么要这么做。3.0 的物理 AI(世界模型)会先构建一个虚拟的交通场景,预测其他车辆、行人的运动轨迹,再根据物理规律规划自己的行驶路线,真正实现“先理解世界,再做出决策”。


随着物理AI进入VLA/端到端算法时代,强化学习演进为推理训练的核心范式。具体而言,以环境视频作为智能体的输入,使其通过反复试错,比较不同决策的长期结果,自主优化决策。

VLA:通过大量视频学习展现执行能力
VLA模型(Vision-Language-Action, 视觉-语言-动作模型)是一类多模态人工智能模型,能将视觉、语言和动作三种能力融为一体。VLA通过端到端学习,在统一模型中跨视觉和语言模态理解任务语义,并映射到具体操作上,从而省略了手工设计规则和模块对接。
从VLM(Vision-Language Model 视觉语言模型)到VLA,实现端到端能力。以CLIP、LLaVA为代表的VLM成功地将视觉和语言两种模态对齐,2023年的RT-2模型正式提出了“VLA”这一术语,并展示了将一个庞大的VLM直接微调用于机器人控制的惊人潜力,标志着VLA研究进入了新阶段。

VLA模型的核心工作流程
它接收状态(State)(如摄像头捕捉的图像)和指令(Instruction)(如用户的语言命令)作为输入,通过视觉编码器和语言编码器进行处理,最终由动作解码器(Action Decoder)生成机器人需要执行的动作(Action);

世界模型:物理AI推理训练必须的虚拟环境
世界模型(World Model):世界模型原本是强化学习领域的概念,指AI智能体通过学习环境的生成模型,在内部构建对外部世界的表征,从而可以在“脑海中”模拟试验动作方案。
训练数据珍贵,世界模型可以通过合成虚拟环境,弥补真实数据的缺失。基于真实采集的视频,进行高保真重建,可支持以下多样化训练数据批量生成:
对颜色/纹理/材质等物体和环境属性进行高效泛化
根据不同观测位置,实时渲染图像和视频信息
端到端仿真训练环境搭建

世界模型目前还没有一个如LLM一样公认的算法架构,目前世界模型在学术领域的主流技术路线有如下4个:观测级生成式模型强在 “逼真”;潜在空间模型强在 “效率”;强化学习导向的模型强在 “决策”;以对象为中心的模型强在 “可解释性”。它们分别从不同维度探索 AI 理解物理世界的方式,也对应着不同的技术挑战与应用场景。



自动驾驶:车企和解决方案商布局物理AI
自动驾驶是物理AI最重要的落地场景之一,核心在于其同时具备高价值物理交互场景、可持续采集的多模态真实世界数据、清晰的商业收费模式以及可规模化复制的产业链基础;随着 Robotaxi、智能驾驶乘用车和无人重卡逐步商业化,自动驾驶有望率先跑通物理AI的“数据闭环”与“商业闭环”。
每年全球车辆累计行驶里程约 13 万亿英里,若未来能够完全实现自动化驾驶,将带动相关软件、数据服务及硬件设备的持续需求,为自动驾驶生态中的企业创造长期价值。


工业软件:物理AI帮助升级工业技术内核
对于物理AI,工业软件是训练、验证、部署和运维的控制台:
承载数字孪生和仿真:工业软件可以先在数字世界中设计、仿真和优化产品、机器、产线和工厂。
降低真实部署风险:在真实部署前验证机器人、设备和产线能否协同工作。
连接虚拟模型与真实设备:将数字孪生与实时数据、MES、PLC、IIoT 等物理世界数据源连接起来,使AI不只是分析数据,而是影响实际设备行为。
在工业生产中具备明确的商业价值与大规模应用需求:例如生产优化、预测性维护、实时感知和自动化控制。


具身智能:物理AI的终极落地形态
物理AI的核心是让机器人、自动驾驶等系统在物理世界中感知、理解、推理并执行复杂动作;具身智能正是这一闭环的主要载体。
具身智能是核心落地形态:具身智能的关键应用包括通用机器人、人形机器人、自动驾驶车辆、工厂和仓库设施,覆盖典型物理AI场景。
物理AI技术栈支撑机器人从“刚性自动化”走向“真实自主” :从应用层到机器人硬件层逐步构建,实现从用户交互、仿真训练、操作系统、边缘计算到机器人本体的全链路智能化控制与自主决策。
解决现实工业痛点:相比传统机器人,物理AI赋能的机器人可处理不可预测和未知零部件,减少人工编码工作量,加快部署速度,并支持灵活扩展与自然人机交互。


来源:浙商证券

夜雨聆风