I | 世界模型:AI不再只生成＂视频＂,它开始建造＂世界＂-夜雨聆风

I | 世界模型:AI不再只生成＂视频＂,它开始建造＂世界＂

最近AI圈发生了三件大事，都和一个词有关—— 世界模型（World Model）。

先是4月初，一匹匿名“欢乐马”突然空降全球AI视频排行榜榜首，各大厂商纷纷猜测是谁家的底牌，直到阿里巴巴亲自下场认领；紧接着，同一团队又推出了新成员“快乐生蚝”（HappyOyster），直接把自己定位成一款”世界模型”产品；与此同时，”AI教母”李飞飞的World Labs也连发两款新模型——Marble 1.1和Marble 1.1-Plus，剑指更大的3D场景。

三条消息放在一起，一条线索浮出水面：AI正在从”生成内容”，走向”构建世界”。

世界模型到底是什么？

先来理解一个基本问题：世界模型和普通AI视频生成，有什么区别？

我们熟悉的Sora、可灵这类模型，本质上是“一次性”系统。你输入一段文字，它渲染一段视频，流程结束，画面里的故事不会再往前走了。打个比方，就像给你一张动态壁纸，好看是好看，但你只能看，不能走进去，也不能改变什么。

世界模型完全不同。它的核心不是”生成一段画面”，而是学习这个世界接下来会怎么演化。当前状态是什么，加一个动作之后会发生什么，再下一步又会怎样——它理解的是物理规律、空间关系和因果逻辑。就像一个有生命的沙盒，你推一块石头，它知道石头会滚下去；你在中途加一只猫，它会自然地接上原来的故事继续往前走。

这才是真正有意思的地方：世界模型不是在做视频，它是在模拟一个世界。

三路人马，三种思路

目前做世界模型的主要有三股力量，思路各不相同。

谷歌走的是交互路线。Genie系列是实时交互式世界建模的代表，但主要聚焦于游戏和虚拟场景，对多模态输入和音视频联合生成的支持还在探索中。

李飞飞的World Labs 则选择了另一条路——从2D图像出发，重建3D空间结构。2025年11月，他们发布了首款商用世界模型”Marble”，用户只需要上传一张图片或一段视频，就能生成一个可自由漫游、可以编辑的3D世界。今年4月8日最新推出的Marble 1.1在画面质量上更进一步，Marble 1.1-Plus则专门为”大场面”打造——从一张照片就能”长”出整座城市。李飞飞本人把这条路叫做”空间智能”——她认为，语言是描述世界的工具，但世界本身不是语言，是三维的、可以走进去的空间。

阿里巴巴的思路更接近“实时操作系统”。4月16日发布的HappyOyster（快乐生蚝）主打两个功能——”漫游”和”导演”。漫游模式下，你输入一句话或一张图，它生成一个持续运行的世界，你可以用键盘在里面自由移动，镜头跟着视角走，物理规律还在起作用；导演模式下，你在视频生成的任意节点输入新指令，镜头可以切换、角色可以调度、剧情可以改写，而且全程实时响应，不用等它重新渲染。

而在此之前，阿里4月7日开源的HappyHorse（欢乐马）就已经引发了一波轰动—— 15B参数规模，原生支持视频和音频联合生成，支持中英日韩等7种语言的口型同步，在单张H100显卡上生成5秒1080p视频只需约38秒，是当时全球开源视频生成模型的头名。

有意思的是，”Oyster（生蚝）的命名灵感来自莎士比亚戏剧《温莎的风流娘儿们》（The Merry Wives of Windsor）第二幕第二场的台词：“Why then the world’s mine oyster（世界任你驰骋）, which I with sword will open.”，可以说，它精准描述了世界模型这个赛道的本质：把”世界”变成一种可以操作的媒介。

这和我们有什么关系？

想象几个场景：你想做一个游戏demo，不需要写代码，直接用自然语言描述，AI就能生成可玩的原型，玩家走进这个世界之后，剧情自动跟随玩家行为演化；你想拍一个短视频，跟AI说”帮我导演一段在80年代巴黎街头的剧情”，然后随时改剧本、加角色，实时出片；你去博物馆看展览，不再是隔着玻璃看静态介绍，而是能走进那幅画、走进那个历史场景，和它互动，探索它的因果。

这些不是科幻，而是世界模型正在努力实现的方向。

更深远的意义在于，当AI开始理解”世界”而不是”画面”，它离真正理解物理世界、从而与现实世界更好地协作，就又近了一步。机器人、自动驾驶、具身智能……这些需要理解三维空间和因果规律的领域，都将从世界模型的进步中受益。

先别急着兴奋

当然，这条路还很长。

世界模型目前面临的核心挑战是：长时序下的物理一致性、复杂场景中的因果推理，以及对现实世界规律的深度理解。

说人话就是：现在的产品很酷炫，但边界依然清晰——生成时间越长，画面越容易”跑偏”，物理规律越难保持一致。世界模型整体仍处于早期探索阶段，这一点，厂商们自己也很诚实。

但这恰恰是少年们值得关注的原因：在一个技术还没定型的阶段，意味着还有大量空白等待被填满，而年轻人，往往是最不缺想象力的一群人。

世界模型的竞争，本质上是在争夺下一代AI的”世界观”。谁能让AI真正理解空间、理解因果、理解演化，谁就可能掌握未来十年AI发展的主动权。

而作为见证者，我们至少可以做一件事：保持好奇，保持手痒，亲自去看看。

本文内容由AI提供辅助，由人类（饭罢）逐一编写并核实，不然AI会骗我~