从Sora到Genie 3,从自动驾驶到机器人,世界模型正在成为AI领域最炙手可热的方向。一文读懂世界模型的来龙去脉、技术原理与产业应用。

世界模型:AI 的下一个「奇点」——让机器真正理解物理世界
从 Sora 到 Genie 3,从自动驾驶到机器人,世界模型正在成为 AI 领域最炙手可热的方向。它究竟是什么?为什么图灵奖得主杨立昆说「没有世界模型就没有真正的智能」?
一、一个棒球手的启示
想象你站在棒球场上,投手以 160 公里/小时的速度将球掷向你。球从出手到抵达本垒板只需要 0.4 秒——比视觉信号从眼睛传到大脑的时间还短。你根本来不及「思考」怎么挥棒。
但你挥了,而且职业球员经常能打中。
这是因为你的大脑里运行着一个世界模型(World Model)——一个对外部世界的内部模拟器。它在你意识到之前就已经预测了球的轨迹,你的肌肉根据这个预测做出了反应。
这正是 AI 研究者们几十年来梦寐以求的能力:让机器也拥有这样一个「内心世界」。
二、世界模型到底是什么?
世界模型是一种人工智能系统,它能够在内部构建环境的表征,并预测这个环境如何随时间变化——尤其是在智能体采取行动之后。
通俗地说:
大语言模型(LLM) 像是「读万卷书」——从海量文本中学习,擅长理解和生成语言 世界模型 像是「行万里路」——从视觉、声音、动作等感官数据中学习,理解物理世界的运行规律
两者的根本区别在于:LLM 预测下一个 token(词元),世界模型预测下一个状态。
举个例子:你问 ChatGPT「把杯子推到桌子边缘会发生什么?」,它可以根据训练语料回答「杯子会掉下去」。但世界模型可以在内部模拟这个过程——杯子的位置、速度、碰撞、重力——就像你的大脑在想象中「看到」杯子掉落一样。
三、从科幻到现实:世界模型的演进史
1990 年:概念的诞生
德国计算机科学家 Jürgen Schmidhuber(于尔根·施米德胡贝)在 1990 年首次在机器学习语境中提出「世界模型」的概念。他设想用循环神经网络(RNN)预测未来的观测状态,并用这些预测来训练智能体。
2018 年:经典论文引爆
David Ha 和 Schmidhuber 发表了里程碑式论文 《World Models》[1],展示了令人惊叹的实验:智能体在「自己的梦境」中学会了开车和玩游戏。系统分为三部分:
视觉编码器(V):将高维图像压缩为低维表征 记忆 RNN(M):预测未来状态序列 控制器(C):根据表征做出决策
最震撼的是:智能体完全在世界模型生成的「幻觉环境」中训练,然后将策略直接迁移到真实环境——而且成功了。
2022 年:杨立昆的「自主机器智能路线图」
图灵奖得主、Meta 首席 AI 科学家 Yann LeCun(杨立昆)发表了 《A Path Towards Autonomous Machine Intelligence》[2],系统论证了世界模型是实现自主智能的必经之路。
他的核心论点一针见血:
「LLM 只在文本上训练,它们无法预测文本之外的任何东西——比如真实世界的事件。一个只通过文字了解世界的大模型,就像一个人只通过读书来学习打篮球。」
LeCun 提出了 JEPA(联合嵌入预测架构) 作为世界模型的技术实现方案,其核心思想是:不在像素空间做预测(太昂贵),而是在抽象的「嵌入空间」中预测。
2024-2026:爆发之年
进入 2024 年后,世界模型从学术概念迅速走向产业落地:
| 时间 | 事件 | 意义 |
|---|---|---|
| 2024.02 | OpenAI 发布 Sora | 将视频生成模型定位为「世界模拟器」 |
| 2024.03 | Google DeepMind 发布 Genie | 从未标注的互联网视频中学习交互式环境 |
| 2024.12 | DeepMind 发布 Genie 2 | 支持 3D 世界生成 |
| 2025.08 | DeepMind 发布 Genie 3 | 从文本生成照片级实时交互世界,24fps |
| 2026.02 | Waymo 采用 Genie 3 | 构建自动驾驶专用世界模型 Waymo World Model |
| 2026.03 | Meta 发布 V-JEPA 2 | 视频理解与物理推理达 SOTA,支持零样本机器人控制 |
| 2026.03 | LeCun 发布 LeWorldModel | 端到端从原始像素训练,无需手工启发式 |
| 2026.04 | 阿里发布 Happy Oyster | 实时「流动式」世界模型,支持导演模式 |
| 2026.04 | World Labs 发布 Spark 2.0 | 李飞飞团队开源 3D 高斯泼溅渲染引擎 |
| 2026.06 | NVIDIA 发布 Cosmos 3 | 开源权重世界基础模型家族,MoT 架构 |
四、世界模型如何工作?
核心架构:JEPA
现代世界模型大多采用 联合嵌入预测架构(JEPA):
输入(视频帧/激光雷达)→ 编码器 → 嵌入表征
↓
预测器(+ 动作)→ 未来嵌入
↓
正则化器 → 保持表征质量
关键设计理念:
在嵌入空间预测,而非逐像素生成——大幅降低计算成本 自监督学习——无需人工标注,从海量未标注视频中学习 多模态输入——视频、激光雷达、雷达、音频、文本指令
NVIDIA Cosmos 3 的 MoT 架构
2026 年 6 月 NVIDIA 发布的 Cosmos 3 代表了最新的架构创新——混合 Transformer(MoT):
自回归 Transformer:负责推理和下一 token 预测 扩散 Transformer:负责多模态生成 共享表征空间:使用 3D 多维旋转位置编码(mRoPE)统一空间和时间信息 家族包含 Cosmos3-Nano(16B 参数,工作站可用)和 Cosmos3-Super(64B 参数)
五、世界模型能干什么?
1. 自动驾驶
Waymo 使用 Genie 3 构建了 Waymo World Model,能够:
生成同步的摄像头和激光雷达输出 模拟龙卷风、罕见行人行为等极端场景 在虚拟环境中训练规划器,无需车辆上路
2. 机器人学习
机器人可以在世界模型生成的「梦境」中训练,然后将技能迁移到物理世界。这大幅减少了昂贵且危险的真实试错。Meta 的 V-JEPA 2 已实现零样本机器人控制——在从未见过的环境中直接运行。
3. 交互式娱乐
Genie 3 让用户从简单的文字描述生成可玩的 3D 环境。游戏工作室用它快速原型关卡设计。阿里 Happy Oyster 支持「导演模式」——用文字和图片构建世界,然后自由探索。
4. 科学研究
研究人员用世界模型模拟物理系统、生物过程。城市规划者用数字孪生测试交通策略。气象学家用它预测极端天气演变。
5. 视频分析与安防
NVIDIA Cosmos 3 支持 AI 智能体分析实时视频流,进行异常检测、场景理解和自动预警。
六、世界模型 vs 大语言模型:一场路线之争
这是当前 AI 界最激烈的争论之一:
| 维度 | 大语言模型(LLM) | 世界模型 |
|---|---|---|
| 训练数据 | 文本 | 视频、传感器数据 |
| 预测目标 | 下一个 token | 下一个状态(嵌入空间) |
| 核心能力 | 语言理解与生成 | 物理世界理解与模拟 |
| 代表模型 | GPT-4, Claude, Gemini | Sora, Genie 3, Cosmos 3 |
| 典型应用 | 聊天、写作、编程 | 自动驾驶、机器人、仿真 |
| 物理理解 | 弱(基于文本统计) | 强(基于感官预测) |
LeCun 的观点很明确:LLM 永远无法实现真正的智能,因为它们没有世界模型——它们只是在做「高级模式匹配」,而非真正的理解和推理。
但也有研究者认为,两者应该融合:LLM 处理高层指令和常识推理,世界模型负责低层感知和控制。这可能是通向通用人工智能(AGI)的最现实路径。
七、挑战与局限
尽管进展惊人,世界模型仍面临重大挑战:
幻觉与不稳定性:模型生成的「世界」可能偏离物理规律,长时间预测会崩溃 评估困难:缺乏公认的基准。Meta 的 IntPhys 2 测试中,V-JEPA 2 在很多条件下仅略好于随机猜测 计算成本:训练一个高质量世界模型需要海量 GPU 资源 泛化能力:在模拟中训练的策略迁移到真实世界仍有差距(sim-to-real gap) 安全与伦理:逼真的世界模拟可能被用于制造深度伪造、军事仿真等
八、资本涌入:千亿级赛道
世界模型已成为 AI 领域最吸金的赛道之一:
World Labs(李飞飞联合创立):融资 10 亿美元 AMI(LeCun 创立):融资 10.3 亿美元 General Intuition:种子轮 1.337 亿美元 NVIDIA、Google、Meta、阿里:全部重注投入
据市场研究机构预测,世界模型相关市场规模将在 2030 年达到千亿美元级别。
九、结语:AI 正在学会「想象」
从 1990 年 Schmidhuber 的天才构想,到 2018 年 Ha 和 Schmidhuber 的经典实验,再到今天 Genie 3、Cosmos 3 的产业落地——世界模型正在经历从学术概念到工程现实的质变。
如果说大语言模型教会了 AI「说话」,那么世界模型正在教会 AI「想象」——想象物体如何运动,想象行动带来什么后果,想象这个物理世界如何运转。
而这,或许正是通往真正智能的必经之路。
发布日期:2026 年 6 月 12 日
参考资料:
Ha, D. & Schmidhuber, J. (2018). World Models. arXiv:1803.10122. LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview. OpenAI (2024). Video Generation Models as World Simulators. Google DeepMind (2024-2025). Genie, Genie 2, Genie 3. NVIDIA (2026). Cosmos 3: The Open Physical AI Foundation Model. Meta AI (2026). V-JEPA 2 & LeWorldModel. Wikipedia: World Model (Artificial Intelligence).
引用链接
[1]《World Models》: https://worldmodels.github.io/
[2]《A Path Towards Autonomous Machine Intelligence》: https://openreview.net/forum?id=BZ5a1r-kVsf
夜雨聆风