世界模型,Make AI Great Again?

南方周末研究员丁莉

责任编辑丨黄金萍

AI真的能理解世界的物理规律吗？如果大语言模型不能，世界模型能不能？何时才能？

2026年5月25日，一篇论文《When Does LeJEPA Learn a World Model?》登上了arXiv，作者栏里有个熟悉的名字：Yann LeCun。

LeCun又在讲世界模型，这不稀奇。但这次他不是发布新模型，而是给出了支撑世界模型的数学证明。

论文的核心观点是，当世界的潜在变量（如物体位置、速度）遵从高斯分布，AI学到的表示就能与真实世界的变量建立线性的对应关系，即AI能真正学会世界的底层物理结构。一旦这种线性关系建立起来，AI在表示空间里做简单的直线插值规划，解码回真实世界后，就相当于求解了复杂的物理最优控制问题，比如让机器人用最稳的方式抓取一个杯子。

换言之，LeCun终于为他笃信了多年的路线补上了关键的理论支撑：世界模型不是在简单复现某种编码，而是在数学意义上学到了真实的世界物理结构。

2026年5月的最后十天，从谷歌Gemini Omni到自变量WALL-WM、Geneisis World 1.0，再到英伟达Gamma-World……世界模型在集中爆发。一年前还在堆叠LLM、寄望于Scaling Law“大力出奇迹”的AI圈，今天都跟在了LeCun身后。

与全硅谷“唱反调”的人

2018年，时任Google Brain研究员的David Ha和深度学习元老Jürgen Schmidhuber发表论文《World Models》，让神经网络构建世界模型，并在赛车游戏中通过“想象”学会驾驶。这是世界模型在AI领域形成明确技术概念的最早追溯。

LeCun是世界模型的坚实拥趸，同时也是大语言模型（LLM）的批评者，并因此而备受争议。

这些年，从DeepMind创始人Demis Hassabis到OpenAI创始人Sam Altman，再到有着“人工智能教父”之称的Geoffrey Hinton，LeCun几乎与整个AI圈的“顶流”吵了一个遍。他尖锐批判大语言模型：“继续堆LLM、用更多数据去喂模型、再雇成千上万的人在后训练阶段手把手地“教”系统……在我看来，这完全是胡扯。”

在LeCun看来，智能的核心不是生成文字，而是理解物理世界的规律，预测行动的后果。在他2022年发表的论文《A Path Towards Autonomous Machine Intelligence》中，JEPA（联合嵌入预测架构）就是这条路线的技术载体。

然而，JEPA系列虽有效，却一直被质疑：模型学到的表示究竟是“真实的世界结构”，还是只是某种凑巧好用的编码？

最新的《When Does LeJEPA Learn a World Model?》回答了这个质疑。

从2022年提出JEPA概念，到2023年I-JEPA、2024年V-JEPA、2025年LeJEPA、2026年LeWorldModel，再到最近这篇论文——LeCun用四年时间，把一条从直觉出发的路线，推到了有数学证明的体系。

随着AI从数字世界走向物理世界，只会用语言交互已经不够了，机器人、自动驾驶汽车必须理解物理规律，知道“如果我这样做，世界会怎样”，才可能正确行事。

因此，全球玩家相继开启了世界模型研究。在美国，英伟达推出了DreamDojo、DreamZero，李飞飞的World Labs推出了Marble、RTFM，谷歌推出了Gemini Omni。在中国，字节、阿里、腾讯相继推出Seed3D、Happy Oyster、HY-World，专注世界模型的初创公司极佳科技估值已冲上百亿。

LeCun不再孤身一人。

不过，与LeCun选择在抽象空间里模拟世界变化不同，多数其他世界模型选择显式重建每一帧画面，优先落地于游戏、创意生成领域。

更进一步，行业对世界模型的期待已不再止步于“单机”，而是进一步向“联机”进化。

5月18日，硅谷AI初创公司Odyssey发布了首个支持多智能体实时交互的共享世界模型Agora-1，最多允许4人在同一个实时世界模型中互动。十天之后，英伟达联合清华大学、多伦多大学等高校团队发布了多智能体世界模型 Gamma-World，并将模型进一步迁移到真实的双臂机器人场景，证明了物理协同的泛化能力。

投资机构MoE Capital评估，过去18个月，超过100亿美元涌入了“世界模型”概念。

但这也是AI领域最容易被滥用的词。世界模型应当是一个对物理世界的理解深入到足以预测下一步会发生什么并据此采取行动的模型，同时满足可交互、持久、实时等要求。从这个维度而言，大多数被冠以“世界模型”之名的东西根本不是真正的世界模型。

世界模型的三层用途

2026年5月末，在物理AI领域，至少五项世界模型方面的进展集中爆发。它们从三个递进的层次展示了世界模型的用途。

第一层，是为自动驾驶、机器人生成训练数据。

物理AI存在严重的数据“饥渴”，这是共识，但依靠人工编写物理公式的传统仿真器显然无法穷尽真实世界的复杂性，生成的数据与现实世界存在巨大差距。只有理解物理规则的世界模型能够用极低的成本生成海量且真实的训练数据，特别是补齐真实采集中稀缺的长尾场景。

5月26日，小米公司发布的Auto World Model，将三维重建和视频生成塞进了一个架构中，在此之前，世界模型大多被迫在其中二选一——重建能保证几何准确但死板，生成能创造丰富画面但几何不稳定。小米的思路是，重建提供3D几何先验约束生成稳定性，生成将重建边界扩展到未观测的时空区域，两者的目标函数在结构上互相约束。

截至目前，该框架已交付超过10万clips的高质量合成数据，为智驾模型的训练补齐了暴雨、大雪、动物闯入等长尾场景。

第二层，是为自动驾驶、机器人提供一个可交互的虚拟训练场。

过去，验证机器人性能必须依赖硬件实体一遍遍试错，而现实世界中的任何错误都会付出高昂代价——机器人会跌倒、磨损，物体会被摔坏。

5月28日，硅谷具身智能公司Genesis AI发布Genesis World 1.0，允许机器人在虚拟世界自己生成任务、测试失败、优化策略，成熟后再同步到现实机器人。这套系统将原本需要两百多小时的真实机器人测试，压缩到了约30分钟内完成，效率提升了数百倍。官方数据显示，其Sim-to-Real相关性高达89%。

5月29日，中国机器人公司智元的Ge-Sim 2.0，在CVPR 2026 WorldArena 世界模型评测中拿下总分第一。其突破之一在于，世界模型内嵌强化学习闭环，机器人在无物理损耗的虚拟环境中千万次试错，奖励模型自动筛选高质量数据，精准回流给策略模型。

第三层，是直接充当自动驾驶、机器人的“大脑”本身。

5月29日，中国机器人公司自变量发布WALL-WM，号称是首个“事件级预测”具身智能世界模型。传统机器人模型像在“逐帧填空”，必须预测0.1秒、0.2秒后每一帧的画面和动作。WALL-WM的创新在于将预测单位从“时间帧”换成“语义事件”，即让模型不再纠结中间的冗余过程，而是直接想象“抓住杯子那一刻”这个关键事件，并同步生成抵达该状态的动作。

在真机Core15 L1的基准测试中，WALL-WM在基础任务、推理及泛化场景下的完成度显著高于π0.5、DreamZero等基线模型。

VLA已死，WAM当立？

如果世界模型能够进化成机器人或自动驾驶的“大脑”本身，物理AI领域的上一个“风口”——在LLM基础上衍生的VLA（视觉-语言-动作模型）架构，是不是要被替代了？

在2026年4月底的红杉AI Ascent论坛上，英伟达机器人方向负责人Jim Fan直接抛出 “VLA已死” 的论断。他认为，“语言是一种瓶颈，是一种脚手架，而不是基础。”因此，机器人的大脑不应该在LLM的基础上生长出来。这一论断与LeCun如出一辙。

依赖大量数据的VLA，本质仍然是穷举世界而非理解世界，因此泛化能力备受拷问。

但观察近期水花最大的三个机器人模型，趋势似乎是“融合”而非“替代”。

5月6日，美国机器人公司Genesis AI发布GENE-26.5，VLM和世界模型在它这里都是先验，模型既融合了VLM的意图和语义表征，又融合了世界模型（动作条件视频生成模型）以捕捉时间和物理动态。简单来说，前者负责"理解"，后者负责"预测"，两者在一个统一的架构中各司其职。

4月17日，美国机器人公司Physical Intelligence发布π0.7，它仍然延续了前代的VLA 骨架，但嵌入了一个轻量世界模型组件来提供视觉想象力，帮助VLA“预见”完成当前任务后场景应该呈现的状态。这个改变也是π0.7性能提升的关键。

4月2日，美国机器人公司Generalist AI发布GEN-1，并明确拒绝将其归类为VLA或世界模型，但它在架构上吸收了两者的部分优势，比如VLA“观察-动作”的端到端映射能力，世界模型的物理常识理解能力，只不过这种融合并非通过拼接式的架构，而是“原生”涌现。

由此可见，VLA擅长“观察-动作”，但缺乏对未来的预测；世界模型本身无法直接行动，但能够补齐VLA预测未来的短板，它可以与VLA做架构拼接或成为VLA调度的工具。

当两者联合建模，就会诞生一个新的框架：WAM（World Action Model，世界动作模型）。

2026年2月，英伟达DreamZero首次正式提出WAM术语，输入当前画面、机器人状态和指令，模型能同时输出未来帧和关节动作，机器人的行动严格受物理定律约束。更早之前，2024年，中国具身初创公司星动纪元已率先提出“分频VLA”概念，将70亿参数的世界模型与4000万参数的执行模型连接起来，这一技术路径后来被谷歌、英伟达、Figure等相继采纳。

正如CNN没有被Transformer杀死，而是被吸收进了Swin Transformer——世界模型不是要替代语言模型，它要做的是补上AI缺失的另一半能力：理解物理规律，预见未来。

从LeCun提出JEPA到世界模型成为行业共识，不过四年。

再回到开头的这篇论文，LeCun的发文身份是纽约大学教授。不过，他在2025年年底从Meta离职后，于2026年1月参与创办了AI公司AMI Labs（Advanced Machine Intelligence），专注世界模型与JEPA架构，以构建能理解现实、具备推理和规划能力的下一代AI。12人的公司，种子轮融资已经高达10.3亿美元。

这篇论文，为构建能够可证明地恢复世界结构的世界模型奠定了基础，接下来AMI Labs又将带来怎样的世界模型？

https://arxiv.org/abs/2605.26379

https://odyssey.ml/introducing-agora-1

https://huggingface.co/papers/2605.28816

https://mp.weixin.qq.com/s/qI8Bx_VeSKKiSaCH5KijkA

https://x.com/gs_ai_/status/2059690796266491946

https://arxiv.org/abs/2605.27491

https://mp.weixin.qq.com/s/2UvU3XbtNZp_OHAD1LpmTQ