世界模型：AI 的下一个「奇点」——让机器真正理解物理世界

从 Sora 到 Genie 3，从自动驾驶到机器人，世界模型正在成为 AI 领域最炙手可热的方向。它究竟是什么？为什么图灵奖得主杨立昆说「没有世界模型就没有真正的智能」？

一、一个棒球手的启示

想象你站在棒球场上，投手以 160 公里/小时的速度将球掷向你。球从出手到抵达本垒板只需要 0.4 秒——比视觉信号从眼睛传到大脑的时间还短。你根本来不及「思考」怎么挥棒。

但你挥了，而且职业球员经常能打中。

这是因为你的大脑里运行着一个世界模型（World Model）——一个对外部世界的内部模拟器。它在你意识到之前就已经预测了球的轨迹，你的肌肉根据这个预测做出了反应。

这正是 AI 研究者们几十年来梦寐以求的能力：让机器也拥有这样一个「内心世界」。

二、世界模型到底是什么？

世界模型是一种人工智能系统，它能够在内部构建环境的表征，并预测这个环境如何随时间变化——尤其是在智能体采取行动之后。

通俗地说：

大语言模型（LLM） 像是「读万卷书」——从海量文本中学习，擅长理解和生成语言
世界模型 像是「行万里路」——从视觉、声音、动作等感官数据中学习，理解物理世界的运行规律

两者的根本区别在于：LLM 预测下一个 token（词元），世界模型预测下一个状态。

举个例子：你问 ChatGPT「把杯子推到桌子边缘会发生什么？」，它可以根据训练语料回答「杯子会掉下去」。但世界模型可以在内部模拟这个过程——杯子的位置、速度、碰撞、重力——就像你的大脑在想象中「看到」杯子掉落一样。

三、从科幻到现实：世界模型的演进史

1990 年：概念的诞生

德国计算机科学家 Jürgen Schmidhuber（于尔根·施米德胡贝）在 1990 年首次在机器学习语境中提出「世界模型」的概念。他设想用循环神经网络（RNN）预测未来的观测状态，并用这些预测来训练智能体。

2018 年：经典论文引爆

David Ha 和 Schmidhuber 发表了里程碑式论文《World Models》^[1]，展示了令人惊叹的实验：智能体在「自己的梦境」中学会了开车和玩游戏。系统分为三部分：

视觉编码器（V）：将高维图像压缩为低维表征
记忆 RNN（M）：预测未来状态序列
控制器（C）：根据表征做出决策

最震撼的是：智能体完全在世界模型生成的「幻觉环境」中训练，然后将策略直接迁移到真实环境——而且成功了。

2022 年：杨立昆的「自主机器智能路线图」

图灵奖得主、Meta 首席 AI 科学家 Yann LeCun（杨立昆）发表了《A Path Towards Autonomous Machine Intelligence》^[2]，系统论证了世界模型是实现自主智能的必经之路。

他的核心论点一针见血：

「LLM 只在文本上训练，它们无法预测文本之外的任何东西——比如真实世界的事件。一个只通过文字了解世界的大模型，就像一个人只通过读书来学习打篮球。」

LeCun 提出了 JEPA（联合嵌入预测架构） 作为世界模型的技术实现方案，其核心思想是：不在像素空间做预测（太昂贵），而是在抽象的「嵌入空间」中预测。

2024-2026：爆发之年

进入 2024 年后，世界模型从学术概念迅速走向产业落地：

时间	事件	意义
2024.02	OpenAI 发布 Sora	将视频生成模型定位为「世界模拟器」
2024.03	Google DeepMind 发布 Genie	从未标注的互联网视频中学习交互式环境
2024.12	DeepMind 发布 Genie 2	支持 3D 世界生成
2025.08	DeepMind 发布 Genie 3	从文本生成照片级实时交互世界，24fps
2026.02	Waymo 采用 Genie 3	构建自动驾驶专用世界模型 Waymo World Model
2026.03	Meta 发布 V-JEPA 2	视频理解与物理推理达 SOTA，支持零样本机器人控制
2026.03	LeCun 发布 LeWorldModel	端到端从原始像素训练，无需手工启发式
2026.04	阿里发布 Happy Oyster	实时「流动式」世界模型，支持导演模式
2026.04	World Labs 发布 Spark 2.0	李飞飞团队开源 3D 高斯泼溅渲染引擎
2026.06	NVIDIA 发布 Cosmos 3	开源权重世界基础模型家族，MoT 架构

四、世界模型如何工作？

核心架构：JEPA

现代世界模型大多采用 联合嵌入预测架构（JEPA）：

输入（视频帧/激光雷达）→ 编码器 → 嵌入表征
                                        ↓
                              预测器（+ 动作）→ 未来嵌入
                                        ↓
                              正则化器 → 保持表征质量

关键设计理念：

在嵌入空间预测，而非逐像素生成——大幅降低计算成本
自监督学习——无需人工标注，从海量未标注视频中学习
多模态输入——视频、激光雷达、雷达、音频、文本指令

NVIDIA Cosmos 3 的 MoT 架构

2026 年 6 月 NVIDIA 发布的 Cosmos 3 代表了最新的架构创新——混合 Transformer（MoT）：

自回归 Transformer：负责推理和下一 token 预测
扩散 Transformer：负责多模态生成
共享表征空间：使用 3D 多维旋转位置编码（mRoPE）统一空间和时间信息
家族包含 Cosmos3-Nano（16B 参数，工作站可用）和 Cosmos3-Super（64B 参数）

五、世界模型能干什么？

1. 自动驾驶

Waymo 使用 Genie 3 构建了 Waymo World Model，能够：

生成同步的摄像头和激光雷达输出
模拟龙卷风、罕见行人行为等极端场景
在虚拟环境中训练规划器，无需车辆上路

2. 机器人学习

机器人可以在世界模型生成的「梦境」中训练，然后将技能迁移到物理世界。这大幅减少了昂贵且危险的真实试错。Meta 的 V-JEPA 2 已实现零样本机器人控制——在从未见过的环境中直接运行。

3. 交互式娱乐

Genie 3 让用户从简单的文字描述生成可玩的 3D 环境。游戏工作室用它快速原型关卡设计。阿里 Happy Oyster 支持「导演模式」——用文字和图片构建世界，然后自由探索。

4. 科学研究

研究人员用世界模型模拟物理系统、生物过程。城市规划者用数字孪生测试交通策略。气象学家用它预测极端天气演变。

5. 视频分析与安防

NVIDIA Cosmos 3 支持 AI 智能体分析实时视频流，进行异常检测、场景理解和自动预警。

六、世界模型 vs 大语言模型：一场路线之争

这是当前 AI 界最激烈的争论之一：

维度	大语言模型（LLM）	世界模型
训练数据	文本	视频、传感器数据
预测目标	下一个 token	下一个状态（嵌入空间）
核心能力	语言理解与生成	物理世界理解与模拟
代表模型	GPT-4, Claude, Gemini	Sora, Genie 3, Cosmos 3
典型应用	聊天、写作、编程	自动驾驶、机器人、仿真
物理理解	弱（基于文本统计）	强（基于感官预测）