寻找物理AI的“GPT时刻”:Momenta如何定义自动驾驶的下一程?-夜雨聆风

寻找物理AI的“GPT时刻”:Momenta如何定义自动驾驶的下一程?

「Momenta率先开启物理AI量产时代」

文 | Elena

在2026年的北京车展上，“物理AI”成为各大厂商与技术供应商讨论的核心议题。

从技术演进的周期来看，数字AI在数据规模、获取成本与迭代效率上的经验积累已达临界点。底层技术加速向物理世界迁移，已成为确定的产业共识。

物理AI才刚刚开场，场上的核心玩家都在寻找属于物理世界的“GPT时刻”。在这个赛道中，自动驾驶是目前唯一能够打通“数据闭环”与“商业闭环”并形成正向反馈的领域，由此成为物理AI最先实现规模化落地的阵地。

在各方寻求破局的当下，Momenta给出了自己的解法：依靠“强化学习+世界模型”。

基于这一底层逻辑，Momenta发布了Momenta R7强化学习世界模型，也由此揭开了物理AI正式从技术理念迈入了规模化量产落地的序章，重构了Momenta的商业空间。

「Momenta R7开启“物理AI序章”」

在探寻“物理AI”的落地路径前，需先厘清智能的本质。

在分享会上，Momenta CEO曹旭东借用诺奖得主赫伯特·亚历山大·西蒙（Herbert Alexander Simon）笔下“海鞘”的生物学隐喻指出：智能的第一性原理，就是设定动机、在环境中获取反馈并成长的过程。这种“获取反馈与成长”的机制在AI领域的映射，正是曾助力Alpha Go攻克复杂系统的强化学习。

然而，在自动驾驶这种物理系统中，若让汽车像海鞘一样直接在现实中试错，安全风险与试错成本将无法承受。相较于具备“低成本、短周期”检验优势的数字AI，物理世界亟需新的解法。

《人工智能的未来》一书为Momenta指明了方向：智能的本质来自于“预测”。正如数字AI依赖“预测下一个词”（Next Token Prediction）压缩人类常识，物理AI的质变必须建立在“预测物理世界下一帧”（World Model Prediction）之上。

只有让模型通过海量数据预测未来，将几何运动规律与因果关系压缩其中，它才能真正具备物理常识。这正是“世界模型”存在的根本意义。

当“预测”（世界模型）与“反馈”（强化学习）这两条认知主线交汇，Momenta构建物理AI的系统性解法便呼之欲出：必须先拥有一个能准确预测物理世界运转规律的“世界模型”，再在这个高保真的虚拟模型中利用“强化学习”进行无安全风险的试错与迭代。

由此，Momenta将世界模型切分成3个层次，分别来看：

第一层是世界模型预训练，即先让模型懂物理世界。在这个阶段把几何运动、因果关系压缩到模型里面，理解好物理运行逻辑之后，再通过行为的对齐、训练让模型有驾驶的能力。

第二层是世界模型仿真，知道世界会如何运行的下一个阶段后可以利用这个环境做仿真和评估，解决长尾问题。

第三层是在世界模型中进行强化学习，仿真是强化学习的基础，强化学习一定要和真实世界尽量贴近。

三个层次逐层递进，世界模型预训练其实是给物理AI提供常识，世界模型仿真给物理AI提供练兵场，有了常识和练兵场就可以更好地进行强化学习训练。

Momenta R7强化学习世界模型已经能够处理复杂场景，在现场的视频演示中，夜间前车掉落了一个装着很多苹果的箱子，搭载Momenta R7强化学习世界模型的车辆不仅精准识别掉落物体，还在避让箱子的同时，从苹果旁边规划了一条轨迹，一个苹果都没有压到。

类似的场景，即使是老司机都未必能够做到如此，更不必说用的还是算法模型。

目前，Momenta R7强化学习世界模型已在上汽大众旗舰级车型上实现量产首发，智能驾驶已从“看见世界”跨越至“理解世界”，物理AI也将从技术理念走向规模化量产落地。

「拿到通用物理AI的门票」

不只是Momenta，目前还在场上的算法供应商们都悉数宣布向物理AI转型，但要拿到通用物理AI的门票，注定是一场极其昂贵的较量。

曹旭东算了一笔账：自动驾驶要实现规模化的L4，累计投入至少是百亿美金级别；而如果要打造通用的具身机器人，投入更将高达几百亿到千亿美元。

这意味着，走向物理AI的终局，绝不可能仅靠投资人的持续输血，赛道上的玩家“一定要有现金流业务”。

物理AI的核心在于打通“数据闭环”与“商业闭环”，且二者必须形成正反馈。这与自动驾驶的闭环逻辑相同：足够好的体验带来爆发式的商业化落地，商业化继而带来数据的爆发式增长，进而促使模型能力再次跃升，形成强烈的正反馈。

在过去十年间，Momenta已经跑通了这两个闭环，稳稳握住了这张通往通用物理AI的入场券。

在分享会上，曹旭东和夏炎一直在强调“算法是没有壁垒的”，当技术跨越单点创新，拼的是体系和组织文化，这是训练的基建之一，组织能力决定了能力的上限和进化的速度，而这才是Momenta研发迭代速度上拉开了与同行的身位的核心原因。

依靠“一个飞轮两条腿”的产品战略，叠加高效的组织与领先的架构底座，支撑了Momenta的现金流业务：搭载Momenta系统的量产车辆规模已超过80万台。

在中汽协信息发布会上发布的《2025城市NOA汽车辅助驾驶研究报告》显示，2025年1-11月，我国搭载城市NOA功能的乘用车累计销量达到312.9万辆。2025年1-11月，Momenta城市NOA搭载量41.44万辆，占第三方供应商比例约61.06%，具备充分的领先优势。

庞大的量产基盘不仅提供了稳健的现金流，更是80万个源源不断收集真实复杂路况的数据触角。商业变现反哺体系建设，海量数据浇灌世界模型，Momenta丝滑地从智能驾驶的飞轮中进入了物理AI的正向飞轮。

「量变蓄势，质变重构，商业版图跃迁」

技术路径一旦变化，商业结构就要重新排列。

曹旭东说，去年Momenta就已经是全球品牌的共同选择。德系的BBA、大众，日系的丰田、本田、日产，美系的通用、福特，都是Momenta量产的合作客户。

截至目前，Momenta已成功交付超过70款量产车型，累计定点车型数超200款。搭载Momenta系统的量产车辆规模已超过80万台。本届北京车展，有超过20个品牌，60余款车型搭载Momenta方案，包括奔驰、奥迪、宝马新发布车型等。

Momenta合作的这些跨国车企，几乎就是现阶段进入门槛最高，但壁垒也最高的客户。

奔驰、奥迪等跨国巨头始终坚持高安全、长流程、全验证的研发体系，一项体验的迭代往往要经历数年的测试。而自动驾驶领域仍处在技术快速迭代期，用曹旭东的话说，“摩尔定律”在智驾行业还在加速，传统汽车工业很难想象两年十倍的提升，但在AI时代，智驾的进步还在变快。

在奔驰项目上，双方用了接近八年时间，最终实现量产落地。这八年，不只是技术开发周期，也是体系磨合周期。曹旭东用一个很形象的词形容：又打又合。“高级的团结，永远是团结、碰撞、再团结。”曹旭东说。

曹旭东说，奔驰经常挑战他们各种棘手问题：在高速上没有灯光，路上有交通事故，一个人骑着摩托车摔倒了，刚好戴着黑色的头盔，头又朝前，这种情况下，智驾怎么来解决这个问题？

现在Momenta的强化学习世界模型对这种情况有很好的处理能力，“但坦率说，这个能力的提升是在非常高的安全标准牵引下，逐渐‘打合’出来的。”曹旭东说。

和高要求的客户合作，本身也是在提升Momenta的技术和工程能力。前面提到的极端工况，只有在真实量产体系中才会暴露。而这些问题一旦解决，就会变成Momenta新的能力壁垒，这也是为什么中国与海外车企选择Momenta的关键因素。

随着物理AI的到来，Momenta的商业版图进一步被打开。

曹旭东在本次车展透露，Momenta L4的业务探索不只局限于Robotaxi，还有Robovan物流，明年将拓展Robotruck。

Momenta在乘用车领域成功验证了能力，它现在也准备用一个更全能通用的大模型覆盖全场景的自动驾驶，这将大幅降低Momenta进入新领域的开发成本，让更广泛领域的场景的数据反哺模型训练，让模型更快进步，形成平台优势。

曹旭东用电商行业类比自动驾驶，十几年前有垂直电商，也有平台电商，但最后因为平台效应，平台电商最终胜出。“自动驾驶在大模型领域也存在这样的平台效应，一个模型满足所有垂直领域，并且比单做垂直领域的模型成本更低，效果更好。”他说。

Momenta正在做的，其实是自动驾驶领域的“平台级”（安卓）公司。

物理AI一定会是下一场漫长的马拉松，在巨头环伺的新赛场中，凭借被反复验证的体系底座与前瞻的商业设计，Momenta显然已经为新一轮的淘汰赛积蓄了足够的从容。

封面来源 |企业