
今年以来,世界模型的热度超乎想象,大厂的项目和创业公司如雨后春笋出现,估值也飞速上涨。最近也密集看了不少世界模型的项目,亦真亦假,纠结不定。不管投不投,都需要先把基础逻辑搞明白,哪怕先搞明白一点点。
——————
一、为什么把物理课本喂给AI,它依然不懂物理?
语言大模型能背《红楼梦》,能解高考物理题,能推导麦克斯韦方程组。但如果你问它:推一个半满的杯子,倾斜45度时,水面怎么变化?重心怎么偏移?手指该用多大力度?它就开始胡说了。
问题出在哪?物理课本是高度压缩的符号因果律。F=ma,三个字符,就概括了牛顿第二定律。人类能看懂,是因为我们有身体经验——推过门、踢过球、摔过跤,肌肉记忆让我们能把公式映射到物理直觉。
AI没有身体。你给它喂F=ma,它学到的只是符号之间的统计关联:F后面经常跟=,=后面经常跟m。它可以解物理题,但它不知道一公斤铁和一公斤棉花从同一高度落下为什么可以同时着地。因为它没有见过物体下落时空气阻力、形状、重力的联合时空过程。
更深一层的问题在于:预测与解释,在AI的世界里是脱节的。 语言大模型本质上是基于概率的相关性大师,而非因果性学徒。它可以完美预测行星的轨迹——因为它在无数文本里见过无数次描述——但它推导出的力学定律可能完全是胡编乱造的,因为它没有编码牛顿定律的世界模型。专家们说了,AI能给出精准预测,但它并没有编码物理定律,而是依赖特定情境的经验法则。
AI模型发展的三个发展段位(暂时这么说方便理解吧)是这样的:第一阶段是语言大模型,第二阶段是VLA模型(视觉语言动作模型),第三个阶段就是世界模型。分开说一下:
想象教一个外星人理解地球。给它看人类写的所有书,它能背诵百科全书。但你问它冰淇淋掉地上会怎样,它会描述融化、变脏、被蚂蚁吃掉——但它不知道冰淇淋是固体、融化是相变、蚂蚁是生物。它只是在复述语言里的文本关联。这是语言大模型。
给它戴上VR眼镜,连接机械臂,让它模仿人类动作。你说拿起杯子,它学会了机械臂的轨迹。但它不知道杯子是玻璃做的、会碎、装了热水会烫手。它只学会了听到拿起时手臂该怎么动。这是VLA。
让它在虚拟环境里生活一百万年。它推过杯子、摔过碗、烧过水、叠过衣服。它在像素层面内化了重力、摩擦、热传导、物体恒存性。当你再说拿起杯子时,它在内部推演:杯子空了→重心偏移→需要调整握力→倾斜角度不能太大→否则水会洒。然后它才输出动作。这是世界模型。
从上面这三个基本概念开始,你就可以进入当下热到发紫的世界模型讨论群了。
——————
二、语言大模型、VLA、世界模型的底层逻辑
进入AI时代,当我们谈论模型的时候,所有模型的骨架都是参数,所有参数的本质都是确定了的函数关系,几百亿或者几千亿的参数可以构成一个大模型,参数就是底层逻辑的线索。之前的语言模型是用Token离散化编码了人类的语言,经过这几年的熏陶,大多数人已经理解了语言模型的底层逻辑。
然而与之一脉相承的是,AI的庞大算力不仅可以离散化编码人类的语言,还可以让它编码一个视频动作。比如说像视频生成有一种叫首尾帧的控制,给出一个首帧,给出一个尾帧,AI可以补齐中间从而合成一段电影。世界模型用于机器人也一样,给出一个最终执行完的图片,一样也可以进行这个中间的生成和推理。
因此,世界模型之所以目前被产业界和投资界高度看好,就是因为Token(之前的汉语翻译为令牌,现在好像叫词元)不仅可以对语言,还可以对视频和物理世界解析和模拟,比如编码一个人类冲咖啡的动作。目前看起来这并没有什么不可思议的了,我们距离物理世界的人工智能和具身智能时代确实已经越来越近了。
很多人以为大模型是记住了互联网上的所有知识。其实不是。它的核心,是几十亿甚至上千亿个参数在运行,你可以把它理解成一个巨型调音台上的旋钮,不是一两个,是几百亿个旋钮同时工作。
当你说红这个字的时候,不是某个参数等于0.8就代表红色,而是成千上万个参数以某种特定组合同时亮起,在向量空间里指向红色这个方向。当你在红字后面接着说楼梦的时候,旋钮组合的整体构型发生了漂移,从颜色语义空间滑向了文学语义空间。
关于模型的底层逻辑,还必须要说到深度学习,深度学习这四个字看起来非常通俗,但却是AI中一个非常专业的概念。深度学习做的,就是不断调整这些旋钮。给它前面一万个字,让它猜下一个字。猜错了,通过反向传播调整旋钮。几万亿次这样的猜测-纠错-调旋钮之后,模型就内化了人类语言的统计规律。它学会的不是知识,而是语言的条件概率:P(下一个词 | 前面所有词)。这些旋钮的组合呈现出层级结构——从字母到单词到语法到推理。这就是常听到的AI的涌现效应,像水加热到100度突然就变成了蒸汽。
下面关键的区别来了:语言大模型处理的是一维文本Token,VLA处理的是二维图像patch,而世界模型要处理的是三维时空中的物理状态。物理世界的信息密度远高于语言,语言token的带宽根本不够,必须在像素、动作、力矩的原始信号层面直接建模。
所以这三类模型的考卷完全不同:
语言大模型的考卷:输入文本序列,预测下一个token,数据是互联网文本,学到的是语言的条件概率分布。
VLA的考卷:输入一张图+一句话,输出动作(关节角度、末端坐标),数据是(图像, 语言, 动作)三元组,学到的是从视觉+语言到动作的映射函数。它是执行层,把语言指令翻译成动作,就像大脑皮层运动区控制手指。它只学听到拿起时手该怎么动,不学杯子拿起后水会洒。
世界模型的考卷:输入当前视频帧+动作指令,预测未来视频帧(或未来状态表征),数据来源最好是第一人称视角的视频,学到的是物理状态转移函数 P(未来状态 | 当前状态, 动作)。它像小脑或前额叶,在动作执行前内部推演后果:倾斜45度→水流出→液面下降→重心偏移→杯子可能滑落。然后据此选择最优策略。
至于VLA和世界模型两者的关系,不是谁取代谁,而是大脑的分工协作。未来成熟的具身大脑,大概率将是VLA的语义能力+世界模型的物理能力+小脑的运控能力的三层融合。
——————
三、世界模型的三条技术路线
世界模型的分类角度很多,我自己理解为下面的三条路线(不一定对,方便理解吧)。这三条路线当然都离不开深度学习的大框架,都以海量数据当燃料、把规律往参数里固化,只是在吃进去什么数据、有没有先验物理框架、吐出来什么东西这三个维度上有差别,所以以这个维度做了区分。
第一条 纯视觉路线
不预设三维空间,也不内置物理规则,直接给模型投喂海量原始视频像素。依托Transformer从画面时序里纯统计学习运动与场景规律,全程不需要人工精细标注,但对视频的数量和多样性要求极高。
吐出来的东西就是视频帧,比较适配游戏、影视、广告这些视觉生成场景。当然,生成视频之后,也可以再对接一层控制软件,进而输出机械动作。
穿插一件事:我感觉世界模型之后的游戏市场可能会发生翻天覆地的变化,以后游戏创作的软件可能就没有了,通过自然语言交互的方式可以直接去创作游戏了,从而很有可能很多的C端用户将来自己都可以用世界模型去生成游戏了。
这条路线的一个关键麻烦在于,模型肚子里没有物理常识,容易出现杯子穿墙、水往高处流这种违背物理逻辑的画面。所以它不适合直接用于对物理一致性要求极高的自动驾驶主控,或者精密机器人的闭环作业。
典型代表的企业和产品比如:OpenAI Sora、Runway GWM、字节跳动VideoWorld、Wayve GAIA-1。
第二条 带物理先验约束的路线(显式世界模型)
同样喂大量视频,同样基于深度学习,但不是从零开始硬学。模型会预先内置长宽高、体积位置、碰撞阻隔、重力作用、刚体动力学这些基础物理常识,依托立体的空间表征与可微分物理引擎先把现实世界的底层框架搭好,再通过视频数据往里面填充现实细节。
这条路线是真的上难度了。吐出来的东西既可以是符合物理逻辑的视频帧,也可以是直接用于仿真推演的3D交互环境。因为已经有先天框架兜底,所需视频数量可能比第一条少,视频质量也更侧重空间结构化适配,仅需少量人工结构化标注辅助对齐。物理合理性很强,比较适配自动驾驶、机器人作业这些场景。
典型代表的企业和产品比如:李飞飞World Labs的Marble。
第三条 抽象状态的路线(隐式世界模型)
这条路线相当高端和抽象。它不再依赖原始视频的像素当核心输入,而是把视频画面通过人工提炼,转化为位置、速度、障碍物、行为意图这些抽象状态符号,专注符号之间的因果关联与时序演变。它不生成高清视觉画面,输出的目标就是下一个状态(状态!听不懂了吧,其实我也不懂)。
大咖们说,这条高级路线高度依赖前置数据标注与结构化规则定义,擅长智能体自主决策与机器人行为规划,适配自动驾驶决策环节、游戏NPC行为逻辑。同时还可以畅想一下,它未来可能承担通用人工智能推理思考层级的核心作用——当然,一旦成功,还可能彻底颠覆前两条路线。
典型代表的企业和产品比如:Meta FAIR,以及LeCun团队的JEPA。因为JEPA是在隐空间里做预测,业内一般把这种叫隐式,跟李飞飞的显式刚好形成对照。LeCun这条路线其实是公开反对自回归Transformer范式的,他认为那条路走不通,才另起炉灶,此事另议。
多说一个事儿,英伟达的Cosmos是一个横跨所有路线的基建层,用Cosmos处理视频数据、用Omniverse做仿真验证,提供数据处理管线、视觉Tokenizer和预训练模型家族。说白了,英伟达在给其他的世界模型卖铲子,给所有玩世界模型的人提供造模型的工具和算力,这个厉害了。
——————
四、AI进入物理世界是鲤鱼跳龙门
在人类AI发展的宏大历史潮流中,我们第一步已经基本实现了语言和语言的对齐,第二步已经大幅实现了以语言和视觉的对齐,现在正在探索的第三步是视觉和动作的对齐。所以当前世界模型最核心的共同挑战不是生成视频漂不漂亮,而是物理一致性。
物理一致性的三个最大障碍:第一就是物理幻觉,即生成视频合理,但可能违反了物理规律;第二是基于不准确的世界模型训练出来的策略,真机在部署的时候性能受到了折损;第三就是长时序预测中误差会被指数级放大,长时序依然是挑战,视频或动作一旦时间长了就出问题。
原来的语言与视觉对齐是静态的,但现在视觉与动作对齐是动态的,难度出现了指数级的上升。
虽然难度比想象中要大很多,但整个世界模型的理论界仍然对此充满信心。就像大猩猩没有语言中枢,但吃饭、干活这些他也会,说明这个世界的规律不是靠语言凝练的,而是有一套其他的更加抽象的规律。婴儿先通过抓握、爬行来理解空间,后来才学会用前后左右这些语言的词,语言是对具身体验的二次编码而非源头。
因此人工智能的前沿认知把智能的根基总结为是物理的交互而非符号的表征,因此世界模型确实可能比VLA以及语言模型更接近智能的本质,他们的估值疯涨正反映了投资人的预期。
我们近期接触的某创业团队在国际评测中拿了第一,风格一致性、光度一致性指标领先,我们在跟进中。但这些是视觉生成质量指标,不是物理规律遵循指标。短期,纯数据驱动路线可以靠架构创新跑得快,因为物理引擎的耦合太重,会拖慢迭代速度。但中长期,如果世界模型不能解决物理一致性问题,它就只是高级视频生成器,而非真正的物理推理引擎。
在语言大模型的世界里,一本正经胡说八道的语言幻觉依然十分普遍,但是如果进入世界模型,可靠性的要求就需要非常高,不论是在工业中还是在生活中,不论是收拾一张会议桌还是冲咖啡,我们几乎无法容忍它出现错误。这类似于自动驾驶技术要完全实现在物理世界的落地,所谓去掉方向盘的完全自动驾驶还有一段艰难的路程,世界模型也是其中重要的实现路径。
如何实现AI模型在物理世界的可靠性?
除了进一步研发和突破世界模型的架构本身以及长期持续大量的数据训练之外,在当前阶段还有一个重要的保护机制就是Harness,即所谓的马缰,类似于自动驾驶领域里面端到端中的规则干预一样,这是世界模型能尽快有点现实应用的重要方法。
Harness是AI世界模型的安全约束系统,用于规范模型决策输出,是物理AI落地的关键保障机制。依靠这样的机制把模型圈到一个可行域里面去,在这个可行域里面,它的动作是符合操作者预期的,防止突破安全边界。
例如自动驾驶,2015年百度做自动驾驶的时候,系统里有上百万行手写规则代码,特斯拉早期也是百万量级。后来自动驾驶从三段式(感知-规划-控制)走向两段式端到端,再走向一段式原生端到端,神经网络替代了大量手写规则,代码量大幅下降。到2024年特斯拉FSD V12,一段式端到端的核心推理代码甚至可以压缩到约3000行。可以类比的是,如果世界模型的架构足够好,显式规则代码量也会下降,但Harness作为安全边界约束不会消失,只会变得更极简。这对世界模型是另一种启示。
————
五、数据,还是数据
AI的进展仍被低估中提到,算力、算法和数据,AI的三大支柱。在世界模型训练的数据核心定位上,数据质量与分布多样性比单纯的数据量重要得多,是保障模型泛化能力、避免过拟合的关键。世界模型对数据质量、分布多样性和采集闭环的依赖度高于语言大模型,后者训练数据(互联网文本)获取门槛相对较低,而物理世界的数据采集成本就高很多了。
世界模型行业短期内的竞争仍以模型架构驱动为主,看谁能做出架构更优的模型,但2-5年后将全面转向数据工程、清洗与治理能力的竞争。训练以第一人称视角视频为核心载体,才容易实现视觉与动作原生对齐,具备时空连续理解优势,这严重区别于传统静态图文训练的VLA模型。
数据策略方面,行业尚未形成统一标准。 有企业采用"70%互联网公开第一人称视频+30%真机定制采集"的配比,主要通过互联网开源用户拍摄视频、C端穿戴设备众包采购、产业生态大厂合作共享三大渠道采集;也有团队坚持真机数据不可替代,自建采集团队是核心壁垒。两种路线目前并存,孰优孰劣尚无定论。
也有观点认为应摒弃自建大规模采数团队,以此规避多重过拟合风险、控制成本,这也是借鉴自动驾驶行业经验,依托量产终端与生态设备打造数据飞轮。
据部分企业披露,其已积累千万级视频对子、几十万小时训练数据,但行业整体水平差异很大,且不同场景落地数据需求差异显著——Demo级验证、工业标准化场景仅需少量数据即可完成适配。同时,行业部分厂商宣称的大规模真机采集数据存在宣传泡沫,实际规模可能远低于口头表述(投资人要小心!)。
从行业格局来看,世界模型大脑市场大概率不会一家独大,但也不会高度分散。因数据隐私与合规壁垒,特定行业的数据难以集中,可能形成基础层少数寡头+行业层若干深耕者的梯队格局。短期行业将聚焦架构迭代,同时布局可持续数据源、搭建数据工程团队;中长期竞争核心转向数据治理、合规与专属数据壁垒,还将诞生第三方数采服务企业。
整体来看,世界模型数据采集采用大小数据结合模式,短期瓶颈在于模型架构创新与数据治理能力的协同,长期壁垒则聚焦合规生态数据源与数据工程体系。
——————
六、竞争格局:大厂、创业公司与学术巨头
英伟达是最积极的平台级玩家。Cosmos统一了文本、图像到世界的生成范式,其Cosmos Policy产品线支持世界-动作模型路线,为行业探索替代传统VLA提供了基础设施支撑。它的野心不是做机器人本体,而是做Physical AI的卖铲人——提供从训练到仿真的全栈基础设施。策略是以部分开源/免费的软件工具降低使用门槛,从而锁定硬件(GPU、Jetson)生态。
李飞飞的World Labs选择了空间智能的垂直深耕。从实时帧模型到3D世界生成,产品化路径明确指向游戏、影视VFX和VR。该技术路线以3D为中心,主动选择嵌入现有游戏工业管线(Unity/Unreal),大概率成为巨头生态的组件供应商,而非独立颠覆者。
国内大厂中,阿里在具身智能领域有布局,主要通过模型团队及生态投资推进;腾讯混元团队与学术力量在世界模型评测、数据集建设上有合作;字节则相对谨慎,内部优先围绕AI短剧(红果)等现有内容生态做AI赋能,对世界模型本体保持观望,主要通过投资生态布局。
创业公司要避免与大厂在下一代交互界面(游戏/3D AIGC)正面竞争——那个领域工业体系成熟、巨头林立。我理解,创业公司更务实的生态位是做Physical AI的通用大脑供应商,与本体厂商形成大脑+本体的互补协作。(这也是我的一家之言,抛砖)
但创业公司的风险依然非常真实,全球头部本体厂商普遍选择自研大脑算法,外部供应商面临极大的市场准入壁垒。投资人的投资图谱被进一步缩窄。
——————
七、风险与投资纪律
说说风险。我列几个让我半夜睡不着的问题:
通用大脑之路,可能走不通。 全球头部本体厂商——特斯拉、Figure、波士顿动力、宇树、智元、优必选——普遍选择自研大脑算法,外部独立大脑供应商面临极大的市场准入壁垒。真正有意愿外采大脑的,可能只是缺乏自研能力的中小厂商,订单规模有限。如果通用大脑的故事讲不通,世界模型公司只能退守垂直场景:工业仿真、电力巡检、低空经济。估值逻辑就要从平台型技术变成项目型公司,天花板大幅降低。
技术路线未收敛,终局可能是融合而非单一世界模型。 未来成熟的具身大脑,大概率不是纯世界模型,也不是纯VLA,而是VLA+世界模型+运控三层融合。世界模型可能只是一个中间态——为VLA生成训练数据,或者作为VLA内部的预测模块。如果终局是融合,独立做世界模型的公司,价值会被做全栈融合的公司稀释。
JEPA路线可能颠覆现有范式。 杨立昆的JEPA路线试图通过无标注视频预训练学习物理规律,若取得突破,当前依赖海量标注数据和像素级视频生成的训练范式可能被颠覆。但这条路目前仍处于早期探索,能否真正掌握物理规律,学术界尚无定论。
大厂开源是悬在头顶的剑。 英伟达Cosmos部分开源免费,Google Gemini API开放。这些巨头的降维打击,可能直接压缩创业公司的定价权和生存空间。当大厂把世界模型作为基础设施免费发放时,独立模型公司的商业模式会被釜底抽薪。
物理能力不足是长期硬伤。 纯数据驱动学习物理规律,本质上是拟合外观统计,不是内化因果定律。刚体动力学、接触力学等核心物理量如果没有显式嵌入模型,长时序预测的误差会指数级累积。
数据飞轮可能转不动。 世界模型最稀缺的数据是真机闭环数据,但这部分数据被本体厂商牢牢掌握。独立大脑公司拿不到头部客户的核心产线数据,只能依赖互联网公开视频和自建采集团队。公开视频噪声大、质量低;自建采集成本指数级上升,且容易过拟合到特定本体和特定任务。
估值与基本面的错配。 赛道热度极高,但绝大多数世界模型公司没有收入、没有订单、没有商业化定论。估值增速被市场情绪带动,传统PE、PS、市研率都不适用。如果技术路线证伪或商业化延迟,估值回调的空间极大。
那么,面对这样一个赛道,投资人该怎么办?这不是一个能算清楚的投资。技术路线没收敛,商业化没验证,竞争格局没定型,任何精确估值都是自欺欺人。但完全回避,又意味着错过一个可能改变物理世界的基础设施级机会。所以我考虑:
控制单笔投资敞口。这种项目不能重仓。技术路线可能证伪,团队可能散架,估值可能腰斩。单笔投资必须控制在基金可承受损失的范围内。
看团队的三重基因。算法基因(发顶会的能力)、工程基因(量产自动驾驶或机器人的数据闭环经验)、物理基因(物理仿真或机器人学的交叉背景)。
此外,短期内技术路线是否会被证伪、短期内融资能力是否能够持续,短期内创业团队是否能够稳定增强,仍是重要的投资判断维度。如果有足够强度的资本力量,客观上也在助力一个团队和产业的发展。
————
小结几句
股权投资是个艰难的工作,当前的一级市场可能是最好的时代,也可能是最差的时代,GPU的算力浪潮和上市浪潮冲晕了整个市场的头脑,大模型中,MiniMax、智谱早期也面临类似质疑,它们的出圈给了看多者信心。
我们确实需要冷静。如果GPU、量子计算、AI大模型这些企业没有走出来,今天就不会有人记得这些故事了,投资人既要警惕幸存者偏差,也不能因为害怕就错过。有人辞官归故里,有人星夜赶科场,时代终会奖励那些坚守信念的创业者和投资人。
[上面的文字是自己的学习笔记,最近烧脑的领域确实多了点,从后台的数据看,是几乎没有人能从头看到这里的,除了最后这一段(^_^)。所以回应一下现在可以买智驾车了。如文头图片,已喜提A10顶配。算了补贴,七万入手,实用精致,毫无冗余。做投资与做产品类似,克制的成本,也是高级的豪华。]
夜雨聆风