世界模型:AI从语言智能走向空间智能的关键跃迁

数据、架构与物理常识，三维交汇处的下一个十年

引言 AI的下一代命题，从语言走向空间

过去十年，人工智能的主旋律是语言。GPT系列展示了惊人的知识整合与推理能力，让人们习惯了用文字与AI交流、用文字描述任务。2025年末，李飞飞在一篇万字长文中提出了一个根本性的追问：如果AI的下一代是空间智能，仅靠语言模型足够吗？她的答案是：不够。真正理解物理世界，需要一种全新的能力——世界模型。

什么是世界模型？李飞飞的定义简洁而清晰：世界模型是一种生成模型，能够理解、推理、生成和交互复杂的虚拟或真实世界。它需要同时具备三种能力——生成能力（几何一致、物理一致地模拟世界）、多模态能力（处理图像、视频、文字、动作等多种输入）、交互能力（根据行动和目标预测下一个世界状态）。

第一章为什么语言模型无法独立构建世界模型

理解世界模型为何困难，先要理解语言模型擅长什么、不擅长什么。

语言模型的强项：知识整合与推理

GPT系列展示了惊人的知识整合能力——能记住数万亿Token的语料，能在不同领域进行逻辑推理，能写出流畅的文章和代码。这些能力建立在对文字的统计规律建模之上：当模型见过的文字模式足够丰富，它能在新场景中复现和组合这些模式。这是语言模型的本质——对符号序列的分布建模。

语言模型的结构性局限：对物理世界的"语言式理解"

但语言对物理世界的描述是高度抽象的。当我们说"把玻璃杯放到桌上"，这句话在语言模型那里会解析为token序列，而在真实物理场景中，这个动作涉及对力矩的感知、对摩擦力的估计、对杯子重心偏移的实时修正——这些信息在文字描述中几乎完全缺失。

更深层的局限在于：语言模型处理的是符号序列，对物理世界的时间性和空间性缺乏天然的理解。"杯子从桌面掉落"——这个过程在语言中只是一句话，但在物理中是一个连续的时间过程，涉及重力、空气阻力、弹性碰撞、碎片分布……语言无法承载这些连续物理过程的完整细节。

这意味着：构建世界模型，需要一种不同的数据、一种不同的架构、一种不同的学习目标——不是更多文本，而是更多关于物理时空的经验。

第二章两条技术路径的各自贡献

当前探索世界模型的技术努力，主要沿两条路径展开。它们各自解决了问题的不同层面，不是对立，而是互补。

路径一：数据规模化路线——从大规模数据到空间涌现

这条路径的核心逻辑是：当训练数据足够丰富、足够多样，覆盖了足够多的视觉、物理和动作场景，模型会自发形成对空间关系的理解——智能从数据中涌现，而非被手工设计出来。

从ImageNet到CLIP、MAE、DINOv2，这条路线在视觉领域逐步验证了一个假设：自监督学习配合大规模图像/视频数据，可以让模型学会丰富的空间和物理直觉。RT-2、ACT-1等视觉-语言-动作模型则进一步证明，当这种视觉理解与动作数据结合，机器人可以直接从"看到"映射到"做到"——不需要显式建模物理方程。

李飞飞主导的World Labs在2025年底推出了Marble，首款商用世界模型产品。只需一句话，Marble就能生成精确到几何细节和物理属性的3D场景——这正是数据规模化路线在空间智能领域的一次重要验证。它证明了：当数据足够丰富、架构足够适配，生成式世界模拟不是梦。

路径二：结构归纳偏置路线——从物理先验到因果推理

这条路径的核心逻辑是：物理世界有其固有的结构规律，将这些规律以结构先验的形式嵌入模型，可以让模型用更少的数据、更可靠地掌握空间理解能力。

杨立昆提出的JEPA（联合嵌入预测架构）是这条路线最具代表性的创新。它的核心思路是：不做像素级的预测（Sim-to-Real gap太大），而在抽象表征空间中预测世界的下一步状态。这既保留了结构归纳的效率优势——让模型学习"高层次的物理规律"而非像素级重建，又借助了自监督学习从海量数据中吸收知识的能力。

在这条路线上，还有一批重要的底层工作：NeRF通过神经辐射场实现3D场景的隐式表征；3D Gaussian Splatting提供了实时可微的3D场景渲染；diffusion model在视频生成领域的突破正在为物理仿真提供高质量数据来源。这些技术并不追求端到端的通用性，而是在各自擅长的领域提供可靠的空间建模能力。

第三章三个根本问题：数据、架构与物理常识

无论沿哪条路径前进，构建世界模型都绕不开三个根本问题。它们是当前所有技术路线的真实交汇处，也是真正的挑战所在。

问题一：具身数据从哪来

语言模型的数据可以来自互联网，但机器人在物理世界中感知的数据无法靠爬取获得。具身数据的采集成本极高——需要真实的机器人、真实的场景、真实的力反馈，而且每一条数据的标注都需要动作级别的标注，远比图片分类复杂得多。

三条解决思路正在被同时探索：仿真合成数据（Sim2Real）用虚拟环境批量生成训练数据再迁移到真实机器人；互联网视频学习从YouTube等视频中提取人体动作表征；数据飞轮通过量产机器人让真实使用数据不断回流。这三条路各自有效，但都尚未能完全解决规模问题。

问题二：什么样的架构适合空间推理

Transformer在语言和视觉理解上表现卓越，但它将所有输入token化为一维序列的处理方式，对三维空间信息的建模并不友好——物理世界的物体之间存在三维几何关系，将3D信息强行展平为1D序列会带来结构性效率损失。

新的架构探索正在多个方向展开：3D感知Transformer尝试在模型中保留3D结构信息；图神经网络直接建模物体间的关系网络；Neuro symbolic方法尝试将物理定律以规则形式嵌入。这仍是开放的前沿问题，尚无定论。

问题三：如何让AI理解因果

这是世界模型构建中最核心、也最困难的问题。"玻璃杯会碎"、"水会流动"、"门推开后会自动关上"——这些对人类来说是常识的物理规则，对AI而言并非从数据中自动习得。

数据规模化路线认为：只要有足够多的视频数据（涵盖各种物理现象），模型能从统计相关性中推断出因果关系。结构归纳偏置路线认为：必须将基本的物理守恒律以硬编码或软约束形式嵌入模型，否则即便数据再多，对因果的理解也是不可靠的。

目前最有效的路径可能是两者的结合：用大规模视频数据预训练一个"物理直觉"基础，再用结构化物理模型进行校准和修正——这类似于人类先用经验积累直觉，再用物理定律纠偏。

第四章具身智能的两层挑战：VLA与世界模型

2025年，VLA（视觉-语言-动作）模型成为具身智能领域的焦点。RT-2、ACT-1、π₀等模型展示了端到端"看到→做到"的强大能力——摄像头输入图像，输出直接是对机器人的控制指令。这让不少人认为具身智能的核心问题已经解决了。

但这个判断为时过早。VLA解决的是实时执行层的感知-动作映射，属于短时、局部、反应式的任务——把杯子拿起来、绕过障碍物、把抽屉关上。这类任务不需要显式建模重力、摩擦力或因果链条，只需要从海量数据中学会"在这种情况下这样做"的模式即可。

而世界模型要解决的是另一类问题：长程规划（"我要花几步把这间屋子收拾干净"）、因果推理（"这个物体从这个高度掉下去会碎还是弹起来"）、反事实预测（"如果我施加不同的力，物体运动轨迹会怎样变化"）。这些能力的缺失，正是当前VLA模型在全新场景中泛化能力仍然有限的根本原因。

因此，VLA和世界模型并不在同一个层次上竞争：VLA是执行层的工具，世界模型是认知层的支撑。真正完整的具身智能系统，需要世界模型做长程规划和推理，再用VLA执行实时的感知-动作映射。两条路线解决的是不同层次的问题，缺一不可。

评测体系：从技术驱动到可衡量进步

无论是VLA还是世界模型，要取得真正进步，都需要建立统一的评测标准。评测驱动而非概念驱动的转变，对整个领域的健康发展至关重要。

结语 AI的新大陆，需要多艘船

回望AI发展的关键节点：2012年的AlexNet让机器学会"看"，2017年的Transformer让机器学会"读"，2020年的GPT-3让机器学会"写"——每一个节点都伴随着一种新的数据范式和新的模型结构的共同作用。

下一个十年，AI的新大陆是让机器学会"理解空间"——理解三维世界的几何结构，理解物理规律的因果链条，理解行动与后果之间的映射关系。

在这片新大陆的探索中，数据规模化和结构归纳偏置不是两个互相排斥的选项，而是两艘驶向同一片大陆的船。它们各自携带着不同的工具和视角，各自解决了一部分问题——数据规模化解决了经验积累的问题，结构归纳解决了因果推理的问题。最终，它们将在真实的物理任务面前汇合，检验的标准只有一个：AI能否在物理世界中可靠地工作。