乐于分享
好东西不私藏

I | 世界模型:AI不再只生成"视频",它开始建造"世界"

I | 世界模型:AI不再只生成"视频",它开始建造"世界"

最近AI圈发生了三件大事,都和一个词有关—— 世界模型(World Model) 。
先是4月初,一匹匿名“欢乐马”突然空降全球AI视频排行榜榜首,各大厂商纷纷猜测是谁家的底牌,直到阿里巴巴亲自下场认领;紧接着,同一团队又推出了新成员“快乐生蚝”(HappyOyster),直接把自己定位成一款”世界模型”产品;与此同时,”AI教母”李飞飞的World Labs也连发两款新模型——Marble 1.1和Marble 1.1-Plus,剑指更大的3D场景。
三条消息放在一起,一条线索浮出水面:AI正在从”生成内容”,走向”构建世界”。

01

世界模型到底是什么?
先来理解一个基本问题:世界模型和普通AI视频生成,有什么区别?
我们熟悉的Sora、可灵这类模型,本质上是“一次性”系统。你输入一段文字,它渲染一段视频,流程结束,画面里的故事不会再往前走了。打个比方,就像给你一张动态壁纸,好看是好看,但你只能看,不能走进去,也不能改变什么。
世界模型完全不同。它的核心不是”生成一段画面”,而是学习这个世界接下来会怎么演化。当前状态是什么,加一个动作之后会发生什么,再下一步又会怎样——它理解的是物理规律、空间关系和因果逻辑。就像一个有生命的沙盒,你推一块石头,它知道石头会滚下去;你在中途加一只猫,它会自然地接上原来的故事继续往前走。
这才是真正有意思的地方: 世界模型不是在做视频,它是在模拟一个世界

02

三路人马,三种思路
目前做世界模型的主要有三股力量,思路各不相同。
谷歌 走的是交互路线。Genie系列是实时交互式世界建模的代表,但主要聚焦于游戏和虚拟场景,对多模态输入和音视频联合生成的支持还在探索中。
李飞飞的World Labs 则选择了另一条路——从2D图像出发,重建3D空间结构。2025年11月,他们发布了首款商用世界模型”Marble”,用户只需要上传一张图片或一段视频,就能生成一个可自由漫游、可以编辑的3D世界。今年4月8日最新推出的Marble 1.1在画面质量上更进一步,Marble 1.1-Plus则专门为”大场面”打造——从一张照片就能”长”出整座城市。李飞飞本人把这条路叫做”空间智能”——她认为,语言是描述世界的工具,但世界本身不是语言,是三维的、可以走进去的空间
阿里巴巴 的思路更接近“实时操作系统”。4月16日发布的HappyOyster(快乐生蚝)主打两个功能——”漫游”和”导演”。漫游模式下,你输入一句话或一张图,它生成一个持续运行的世界,你可以用键盘在里面自由移动,镜头跟着视角走,物理规律还在起作用;导演模式下,你在视频生成的任意节点输入新指令,镜头可以切换、角色可以调度、剧情可以改写,而且全程实时响应,不用等它重新渲染。
而在此之前,阿里4月7日开源的HappyHorse(欢乐马)就已经引发了一波轰动—— 15B参数 规模,原生支持视频和音频联合生成,支持中英日韩等7种语言的口型同步,在单张H100显卡上生成5秒1080p视频只需约38秒,是当时全球开源视频生成模型的头名。
有意思的是,”Oyster(生蚝)的命名灵感来自莎士比亚戏剧《温莎的风流娘儿们》(The Merry Wives of Windsor)第二幕第二场的台词:“Why then the world’s mine oyster(世界任你驰骋), which I with sword will open.”,可以说,它精准描述了世界模型这个赛道的本质:把”世界”变成一种可以操作的媒介。

03

这和我们有什么关系?
想象几个场景:你想做一个游戏demo,不需要写代码,直接用自然语言描述,AI就能生成可玩的原型,玩家走进这个世界之后,剧情自动跟随玩家行为演化;你想拍一个短视频,跟AI说”帮我导演一段在80年代巴黎街头的剧情”,然后随时改剧本、加角色,实时出片;你去博物馆看展览,不再是隔着玻璃看静态介绍,而是能走进那幅画、走进那个历史场景,和它互动,探索它的因果。
这些不是科幻,而是世界模型正在努力实现的方向。
更深远的意义在于,当AI开始理解”世界”而不是”画面”,它离真正理解物理世界、从而与现实世界更好地协作,就又近了一步。机器人、自动驾驶、具身智能……这些需要理解三维空间和因果规律的领域,都将从世界模型的进步中受益。

04

先别急着兴奋
当然,这条路还很长。
世界模型目前面临的核心挑战是:长时序下的物理一致性、复杂场景中的因果推理,以及对现实世界规律的深度理解。
说人话就是:现在的产品很酷炫,但边界依然清晰——生成时间越长,画面越容易”跑偏”,物理规律越难保持一致。世界模型整体仍处于早期探索阶段,这一点,厂商们自己也很诚实。
但这恰恰是少年们值得关注的原因:在一个技术还没定型的阶段,意味着还有大量空白等待被填满,而年轻人,往往是最不缺想象力的一群人
世界模型的竞争,本质上是在争夺下一代AI的”世界观”。谁能让AI真正理解空间、理解因果、理解演化,谁就可能掌握未来十年AI发展的主动权。
而作为见证者,我们至少可以做一件事: 保持好奇,保持手痒,亲自去看看。
本文内容由AI提供辅助,由人类(饭罢)逐一编写并核实,不然AI会骗我~