从4月底到现在,如果你稍微留意一下汽车和AI圈的新闻,会频繁撞上一个新词:物理AI。
北京车展开幕当天,Momenta宣布R7强化学习世界模型量产首发,CEO曹旭东说这是“物理AI序章”。同一展馆里,轻舟智航发布物理AI模型,CEO于骞称“未来十年是物理世界AI的时代”。卓驭发布了行业首个原生多模态基础模型。更早之前,今年3月英伟达GTC大会上,VLA和世界模型两条技术路线的支持者已经公开交锋。
这些公司几乎在同一时间窗口,把技术发布会的关键词从“端到端”“城市NOA”切换成了“物理AI”。这不是某家企业的营销策略,而是一个行业级别的范式信号。
要理解这件事,得先搞清楚一个基本概念。
过去几年大家谈论的AI,绝大多数是数字世界的AI——识别一张图片里有没有红绿灯,理解一段语音里说了什么,推荐一条你可能感兴趣的短视频。这类AI的输入和输出都是信息。但让一辆车在城市道路上自己开,它处理的不再是信息问题,而是物理问题:前方滚过来一个皮球,后面很可能跟着一个追球的孩子;雨天刹车距离比平时长,不是软件出了bug,是路面摩擦系数变了。车需要的不是一个更好的图片识别器,而是对物理世界的理解能力。
这就是“物理AI”要解决的核心问题。用Momenta研发SVP夏炎的话说,物理AI的关键在于“对世界基础物理规律的深度认知”——不是靠记住场景来做反应,而是理解物体的物理属性、运动的因果关系、交互的潜在可能。

为什么这个节点火了?
一个重要的背景是,端到端方案在去年大规模上车后取得了显著进展,让行业看到了数据驱动范式的巨大潜力。
与此同时,另一件事也在集中爆发:大语言模型的能力溢出。去年Grok等大模型被整合进FSD,让行业第一次直观地看到——语言模型的语义理解能力不只是用来聊天的,它能让驾驶系统处理更复杂的场景推理和多模态信息融合。这为大模型从座舱语音助手升级为驾驶系统“大脑”提供了技术前提。
在这个基础上,行业开始思考下一步的进化方向。端到端方案证明了“让AI直接从数据中学习驾驶”这条路走得通,而物理AI试图在这个方向上再往前推一步:不仅要让AI学会开车,还要让它理解所行驶的这个世界。这是同一范式下的能力升维,而非对已有路线的否定。
在这轮物理AI爆发之前,智驾行业在算法路线上曾分裂为两大阵营。
一派押注VLA——视觉-语言-动作模型,核心思路是把语言大模型的认知推理能力嫁接到驾驶系统上。简化的理解是:让AI先“理解”场景里发生了什么,再决定做什么。
另一派押注世界模型+强化学习,核心思路是让AI在云端预演未来几秒会发生什么,带着“预判”去开车。华为车BU CEO靳玉志曾公开批评VLA是“取巧”方案,Momenta CEO曹旭东也认为VLA提升有限,世界模型结合强化学习才能实现量级跃升。
两条路线争论的焦点在于:理解是驾驶的前提,还是预测才是关键?
但到了今年北京车展,一个肉眼可见的变化是——这场争论几乎偃旗息鼓了。
轻舟智行的物理AI模型在云端用世界模型生成极端场景,在车端则以在线世界模型为骨干,融合VLA与强化学习算法,实现从感知到行动的全链路闭环。卓驭的“原生多模态基础模型”,思路也是把所有模态——视觉、音频、动作、规则——在预训练阶段就一并加入,让模型“天生的”在多种模态共同空间里理解物理世界,而不是后天拼接。

行业的共识正在加速向“融合”方向收敛:VLA负责认知推理,世界模型负责时空推演,强化学习负责在虚拟环境中试错进化,三者不是互斥关系,而是协同组件。黑芝麻智能CEO单记章的一个判断代表了当前的主流看法:“VLA加上世界模型,是高阶智能驾驶未来最有可能的技术路线,而且有机会超越人类的驾驶能力。”
路线分歧结束后,竞争差异从哪里来?
答案是数据结构和应用场景的分化,而不是算法架构的差异。同样喊“物理AI”,各家公司在做什么样的物理世界理解、用什么样的数据训练模型、服务于哪些场景,差别远比架构选择更大。
Momenta的优势在于乘用车量产数据规模。其方案已在超过70款量产车型上搭载,覆盖80万台车辆,最快40天可完成10万台交付。这个量级的实车数据回传,意味着其世界模型在做物理规律预训练时,输入素材的广度和真实性是行业顶级的。Momenta的核心逻辑是“飞轮效应”:量产越多,数据越多,模型越聪明,进而搭载更多车型。
卓驭走的则是跨品类复用路线。其原生多模态基础模型在预训练阶段除了智驾数据,还覆盖互联网数据及各类移动机器人数据,目标是让不同移动载体——乘用车、商用车、无人物流、Robotaxi——共用同一套物理认知底座。卓驭科技副总裁于贝贝在36氪专访中说得直白:“如果不上这条技术路线,很可能今后就跑不出来了。”其移动物理AI的价值在于大模型范式的核心优势——零样本泛化、开箱即用、跨载体复用。
在行业集体转向物理AI的图谱中,蘑菇车联选择了另一个切入点。早在2025年7月,蘑菇车联就在世界人工智能大会上发布了大模型MogoMind,这是首个深度理解物理世界的AI大模型,是物理世界的实时搜索引擎。这个时间点值得注意——比行业集中喊出“物理AI”早了将近一年。

MogoMind的技术逻辑与其他玩家的核心差异在于数据维度。其他玩家主要依靠海量历史驾驶数据做预训练,让模型从“老病例”中学习物理规律。MogoMind则强调实时动态数据的驱动——接入路侧传感器、车载终端和城市交通系统,形成对道路状况、车辆行驶状态、行人轨迹、气象条件等物理信息的毫秒级感知网络,再将实时数据输入多模态大模型进行认知推理。这套系统已被融合进蘑菇车联自研的端到端自动驾驶系统MOGO AutoPilot,通过海量真实路况数据训练,模拟人类司机驾驶逻辑。
两者的差异可以这样概括:一些玩家让车“见过足够多的过去”,MogoMind让车“知道当前正在发生什么”。前者壁垒是历史路测数据规模,后者壁垒是物理世界实时感知网络的覆盖密度。
物理AI成为共识,单纯的概念卡位不再是壁垒,竞争正从“谁先提出”进入“谁做得更好”的阶段,技术能力始终是贯穿其中的核心变量。
与此同时,数据闭环和交付能力正在成为同等重要的竞争维度。
在这个层面上,芯片和电子电气架构正在重新设定竞争的物理边界。高通SA8775P芯片已规模化上车,英伟达Thor舱驾融合方案加速落地,芯擎科技等国产厂商也推出了量产方案。舱驾融合较传统分立架构可实现整车降本,本质上是为物理AI大规模上车扫清算力瓶颈。元戎启行基于高通骁龙8797平台打造的VLA模型ADAS方案已开始量产出货,这是让物理AI模型真正进入消费者车辆的一个标志性案例。

但物理AI的大规模落地还面临一系列非技术问题。
法规层面,L3级别自动驾驶的事故责任划分在国内仍处于试点阶段,全国仅有20多座城市开放了相关合法路段。
数据层面,物理AI对路况数据的实时性和多样性要求远超传统方案,封闭测试场能模拟下雨和拥堵,但模拟不了一座城市的真实交通生态。
成本层面,虽然芯片在降价,但整车搭载物理AI系统的BOM成本仍需进一步压缩,才能真正从中高端车型下探到15万级车型。
从最近的密集发布来看,物理AI已经完成了从概念到共识的跨越。接下来的竞争,将从“谁先提出概念”进入“谁先跑出规模”。这与其说是一场模型竞赛,不如说是一场数据和交付的系统战。概念本身终将被下一个概念覆盖,但那些把物理世界数据网络和量产体系建起来的企业,会成为新赛道的基础设施。
夜雨聆风