三路人马,三种思路目前做世界模型的主要有三股力量,思路各不相同。谷歌 走的是交互路线。Genie系列是实时交互式世界建模的代表,但主要聚焦于游戏和虚拟场景,对多模态输入和音视频联合生成的支持还在探索中。李飞飞的World Labs 则选择了另一条路——从2D图像出发,重建3D空间结构。2025年11月,他们发布了首款商用世界模型”Marble”,用户只需要上传一张图片或一段视频,就能生成一个可自由漫游、可以编辑的3D世界。今年4月8日最新推出的Marble 1.1在画面质量上更进一步,Marble 1.1-Plus则专门为”大场面”打造——从一张照片就能”长”出整座城市。李飞飞本人把这条路叫做”空间智能”——她认为,语言是描述世界的工具,但世界本身不是语言,是三维的、可以走进去的空间。阿里巴巴 的思路更接近“实时操作系统”。4月16日发布的HappyOyster(快乐生蚝)主打两个功能——”漫游”和”导演”。漫游模式下,你输入一句话或一张图,它生成一个持续运行的世界,你可以用键盘在里面自由移动,镜头跟着视角走,物理规律还在起作用;导演模式下,你在视频生成的任意节点输入新指令,镜头可以切换、角色可以调度、剧情可以改写,而且全程实时响应,不用等它重新渲染。而在此之前,阿里4月7日开源的HappyHorse(欢乐马)就已经引发了一波轰动—— 15B参数 规模,原生支持视频和音频联合生成,支持中英日韩等7种语言的口型同步,在单张H100显卡上生成5秒1080p视频只需约38秒,是当时全球开源视频生成模型的头名。有意思的是,”Oyster(生蚝)的命名灵感来自莎士比亚戏剧《温莎的风流娘儿们》(The Merry Wives of Windsor)第二幕第二场的台词:“Why then the world’s mine oyster(世界任你驰骋), which I with sword will open.”,可以说,它精准描述了世界模型这个赛道的本质:把”世界”变成一种可以操作的媒介。