物理AI密集发布,智驾行业集体“升维”

从4月底到现在，如果你稍微留意一下汽车和AI圈的新闻，会频繁撞上一个新词：物理AI。

北京车展开幕当天，Momenta宣布R7强化学习世界模型量产首发，CEO曹旭东说这是“物理AI序章”。同一展馆里，轻舟智航发布物理AI模型，CEO于骞称“未来十年是物理世界AI的时代”。卓驭发布了行业首个原生多模态基础模型。更早之前，今年3月英伟达GTC大会上，VLA和世界模型两条技术路线的支持者已经公开交锋。

这些公司几乎在同一时间窗口，把技术发布会的关键词从“端到端”“城市NOA”切换成了“物理AI”。这不是某家企业的营销策略，而是一个行业级别的范式信号。

什么是“物理AI”，为什么突然火了？

要理解这件事，得先搞清楚一个基本概念。

过去几年大家谈论的AI，绝大多数是数字世界的AI——识别一张图片里有没有红绿灯，理解一段语音里说了什么，推荐一条你可能感兴趣的短视频。这类AI的输入和输出都是信息。但让一辆车在城市道路上自己开，它处理的不再是信息问题，而是物理问题：前方滚过来一个皮球，后面很可能跟着一个追球的孩子；雨天刹车距离比平时长，不是软件出了bug，是路面摩擦系数变了。车需要的不是一个更好的图片识别器，而是对物理世界的理解能力。

这就是“物理AI”要解决的核心问题。用Momenta研发SVP夏炎的话说，物理AI的关键在于“对世界基础物理规律的深度认知”——不是靠记住场景来做反应，而是理解物体的物理属性、运动的因果关系、交互的潜在可能。

为什么这个节点火了？

一个重要的背景是，端到端方案在去年大规模上车后取得了显著进展，让行业看到了数据驱动范式的巨大潜力。

与此同时，另一件事也在集中爆发：大语言模型的能力溢出。去年Grok等大模型被整合进FSD，让行业第一次直观地看到——语言模型的语义理解能力不只是用来聊天的，它能让驾驶系统处理更复杂的场景推理和多模态信息融合。这为大模型从座舱语音助手升级为驾驶系统“大脑”提供了技术前提。

在这个基础上，行业开始思考下一步的进化方向。端到端方案证明了“让AI直接从数据中学习驾驶”这条路走得通，而物理AI试图在这个方向上再往前推一步：不仅要让AI学会开车，还要让它理解所行驶的这个世界。这是同一范式下的能力升维，而非对已有路线的否定。

路线之争的终结与融合

在这轮物理AI爆发之前，智驾行业在算法路线上曾分裂为两大阵营。

一派押注VLA——视觉-语言-动作模型，核心思路是把语言大模型的认知推理能力嫁接到驾驶系统上。简化的理解是：让AI先“理解”场景里发生了什么，再决定做什么。

另一派押注世界模型+强化学习，核心思路是让AI在云端预演未来几秒会发生什么，带着“预判”去开车。华为车BU CEO靳玉志曾公开批评VLA是“取巧”方案，Momenta CEO曹旭东也认为VLA提升有限，世界模型结合强化学习才能实现量级跃升。

两条路线争论的焦点在于：理解是驾驶的前提，还是预测才是关键？

但到了今年北京车展，一个肉眼可见的变化是——这场争论几乎偃旗息鼓了。

轻舟智行的物理AI模型在云端用世界模型生成极端场景，在车端则以在线世界模型为骨干，融合VLA与强化学习算法，实现从感知到行动的全链路闭环。卓驭的“原生多模态基础模型”，思路也是把所有模态——视觉、音频、动作、规则——在预训练阶段就一并加入，让模型“天生的”在多种模态共同空间里理解物理世界，而不是后天拼接。

行业的共识正在加速向“融合”方向收敛：VLA负责认知推理，世界模型负责时空推演，强化学习负责在虚拟环境中试错进化，三者不是互斥关系，而是协同组件。黑芝麻智能CEO单记章的一个判断代表了当前的主流看法：“VLA加上世界模型，是高阶智能驾驶未来最有可能的技术路线，而且有机会超越人类的驾驶能力。”

融合之后，真正的分化在哪里？

路线分歧结束后，竞争差异从哪里来？

答案是数据结构和应用场景的分化，而不是算法架构的差异。同样喊“物理AI”，各家公司在做什么样的物理世界理解、用什么样的数据训练模型、服务于哪些场景，差别远比架构选择更大。

Momenta的优势在于乘用车量产数据规模。其方案已在超过70款量产车型上搭载，覆盖80万台车辆，最快40天可完成10万台交付。这个量级的实车数据回传，意味着其世界模型在做物理规律预训练时，输入素材的广度和真实性是行业顶级的。Momenta的核心逻辑是“飞轮效应”：量产越多，数据越多，模型越聪明，进而搭载更多车型。

卓驭走的则是跨品类复用路线。其原生多模态基础模型在预训练阶段除了智驾数据，还覆盖互联网数据及各类移动机器人数据，目标是让不同移动载体——乘用车、商用车、无人物流、Robotaxi——共用同一套物理认知底座。卓驭科技副总裁于贝贝在36氪专访中说得直白：“如果不上这条技术路线，很可能今后就跑不出来了。”其移动物理AI的价值在于大模型范式的核心优势——零样本泛化、开箱即用、跨载体复用。

在行业集体转向物理AI的图谱中，蘑菇车联选择了另一个切入点。早在2025年7月，蘑菇车联就在世界人工智能大会上发布了大模型MogoMind，这是首个深度理解物理世界的AI大模型，是物理世界的实时搜索引擎。这个时间点值得注意——比行业集中喊出“物理AI”早了将近一年。

MogoMind的技术逻辑与其他玩家的核心差异在于数据维度。其他玩家主要依靠海量历史驾驶数据做预训练，让模型从“老病例”中学习物理规律。MogoMind则强调实时动态数据的驱动——接入路侧传感器、车载终端和城市交通系统，形成对道路状况、车辆行驶状态、行人轨迹、气象条件等物理信息的毫秒级感知网络，再将实时数据输入多模态大模型进行认知推理。这套系统已被融合进蘑菇车联自研的端到端自动驾驶系统MOGO AutoPilot，通过海量真实路况数据训练，模拟人类司机驾驶逻辑。

两者的差异可以这样概括：一些玩家让车“见过足够多的过去”，MogoMind让车“知道当前正在发生什么”。前者壁垒是历史路测数据规模，后者壁垒是物理世界实时感知网络的覆盖密度。

物理AI之后，竞争的重心是什么？

物理AI成为共识，单纯的概念卡位不再是壁垒，竞争正从“谁先提出”进入“谁做得更好”的阶段，技术能力始终是贯穿其中的核心变量。

与此同时，数据闭环和交付能力正在成为同等重要的竞争维度。

在这个层面上，芯片和电子电气架构正在重新设定竞争的物理边界。高通SA8775P芯片已规模化上车，英伟达Thor舱驾融合方案加速落地，芯擎科技等国产厂商也推出了量产方案。舱驾融合较传统分立架构可实现整车降本，本质上是为物理AI大规模上车扫清算力瓶颈。元戎启行基于高通骁龙8797平台打造的VLA模型ADAS方案已开始量产出货，这是让物理AI模型真正进入消费者车辆的一个标志性案例。

但物理AI的大规模落地还面临一系列非技术问题。

法规层面，L3级别自动驾驶的事故责任划分在国内仍处于试点阶段，全国仅有20多座城市开放了相关合法路段。

数据层面，物理AI对路况数据的实时性和多样性要求远超传统方案，封闭测试场能模拟下雨和拥堵，但模拟不了一座城市的真实交通生态。

成本层面，虽然芯片在降价，但整车搭载物理AI系统的BOM成本仍需进一步压缩，才能真正从中高端车型下探到15万级车型。

从最近的密集发布来看，物理AI已经完成了从概念到共识的跨越。接下来的竞争，将从“谁先提出概念”进入“谁先跑出规模”。这与其说是一场模型竞赛，不如说是一场数据和交付的系统战。概念本身终将被下一个概念覆盖，但那些把物理世界数据网络和量产体系建起来的企业，会成为新赛道的基础设施。