说实话,我对世界模型这四个字已经有点审美疲劳了。
过去一年,我刷到过太多号称世界模型的 demo。点开一看,要么是视频生成模型换了个马甲——你给它一个动作,它给你预测接下来几帧画面,但镜头一转,刚才还在的东西就没了。
要么是那种特别漂亮的3D场景,你可以走进去看,但你什么都做不了,像个精美的空壳。
我当时就想,这算哪门子世界?
我理解的世界,至少得有两条底线:第一,我离开再回来,世界不能归零;第二,我做的事得有后果,世界得认账。
但这个标准太高了。我几乎没见到哪个 demo 能做到。
直到前两天,我在一个群里刷到一个链接,标题写着 Project Eden。
我本来没抱什么期待,随手点开了。
然后我对着屏幕看了十分钟。
不是因为画质有多炸裂,而是——这个世界,它有记性,不仅仅只是看起来像。
让我特别印象深刻的是这段赛车视频,这个模型以两辆车的视角分别展现了同一个场景,没有出现幻觉和瞎猜的情况,保真度和一致性都非常好。
它们看到的赛道是一样的,场景的细节也是一样的。
你明白这背后的含义吗?
这意味着这个世界有一个独立于任何人视角的底层状态。它不是根据我看到了什么来临时编造画面,而是先记录世界实际发生了什么,再根据你的视角去渲染。
就这么一个简单的区别——让所有镜头一转就消失的问题,从根本上消失了。
我当时第一反应是:这不就是我一直想要的那种世界吗?
我先是被 demo 震了一下,然后本能地去查这是谁做的——VAST。
这家公司我之前隐约听说过,做 3D 大模型的,好像还挺牛。
然后刷到了他们的融资新闻,直接惊了——刚完成 A+、A++ 两轮合计近 2 亿美元融资。
渶策资本、国寿长三角科创基金领投,深创投、元生资本这些一线机构都进来了,春华创投、BV 百度风投这些老股东还超额追投。
关键是,距离他们上一轮融资才过去两个月。
我心想,什么公司能让渶策、国寿、深创投这些机构在这么短的时间内连续加注?这背后一定有真东西。
再一看整个行业,确实热闹到了夸张的程度。
2026 年 2 月,李飞飞创办的 World Labs 宣布完成新一轮融资,获英伟达等机构 10 亿美元投资,估值增至 50 亿美元。
3 月,图灵奖得主杨立昆创立的 AMI Labs,完成 10.3 亿美元种子轮融资,估值达 35 亿美元,投资方包含贝索斯基金等。
5 月,以色列 AI 初创公司 Decart 完成 3 亿美元融资,估值达到 40 亿美元。
紧接着,OpenAI 宣布关停 Sora 视频生成应用,把团队重心转向世界模型。奥特曼本人也在社交平台上直接表示,OpenAI 在机器人训练领域的进展十分迅猛。
在国内,今年已有超过 25 起世界模型相关融资事件,极佳视界完成数十亿元融资后估值突破百亿。
阿里发布世界模型 HappyOyster,腾讯同日开源混元 3D 世界模型 2.0,专注空间智能的群核科技 IPO 后市值超 300 亿港元。
全球已有至少 12 家主要玩家布局,世界模型赛道正成为 AI 领域最火爆的新热点。
“现在不讲世界模型,融资难度比较大,但一讲世界模型,估值都是几亿美金起。”——这是投资人在今年中关村论坛上的原话。
赛道虽火,但问题也随之而来。行业里一直缺乏对世界模型的统一标准,不少公司把视频生成与静态 3D 重建包装成世界模型,导致定义不断被扩大和模糊化。
在这个混乱的牌桌上,VAST 拿到了近 2 亿美元融资——这不是一个小数字。但当我认真看完 Project Eden 的架构,我觉得这笔钱的逻辑其实挺清楚的。
先说一句:这个项目叫 Project Eden,目前还只是一个研究预览版,没有公开试玩版。但他们放出了一段 demo 视频,里面的东西已经让我头皮发麻了。
先说说这个demo里能做什么。
你可以变成一只猫,在复杂的屋顶之间跳跃。
你可以驾驶一架直升机,从海浪中升起。
你可以操控船夫划过湖面。
你可以扑灭一场火。可以在墙上涂鸦。
然后你退出,再重新进入——那场火还是灭的,那个涂鸦还在。
这不是视频生成那种预测下一帧的逻辑。传统世界模型的核心是:给你几帧画面,猜下一帧。本质上是在像素层面做短时预测。
但 Project Eden 做的是另一件事:它在后台维护了一个完整的、持久化的世界状态。
你在里面做的每一件事,都会被这个世界记住。你离开,世界不消失。你回来,世界还是那个世界。
这就是他们说的——底层状态推演与视觉呈现的原生解耦。
翻译成人话就是:世界分成了两层。
底层是一本不能撒谎的世界账本,记录着所有物体的位置、属性、状态变化。
上层是一个画师,根据你的视角实时画出画面。账本只有一个,画师可以有很多个。
所以你可以和朋友同时进入同一个世界,从不同视角看,但看到的是同一个被你们改变过的结果。
两辆车可以在同一条赛道上竞速,每个玩家从不同视角观察,但底层世界状态始终保持同步。
你砸了个花瓶,你朋友进来看到的也是碎的花瓶。
这个逻辑听起来简单,对吧?但你去看看市面上所有号称世界模型的东西,没一个能做到。
为什么?
世界模型这个赛道,现在非常热闹。但仔细一看,主要就两条路:
第一条,动作条件视频生成。代表就是各种视频生成模型往世界模型上靠。
它们的本质问题是:把三维世界压进二维帧序列,丢失了空间持久性。物体一离开镜头,模型只能凭空推演重构,因为它根本不知道那个东西还存在。
第二条,静态 3D 场景生成。以 World Labs 的 Marble 为代表。这类方案能搭出很漂亮的三维空间,你可以进去游览。但问题是——没有时间维度。
世界是静止的,没有物理规则,没有状态迭代。你进去之前什么样,出来之后还是什么样,你什么也改变不了。
这两条路,都是妥协方案。一个丢了空间,一个丢了时间。
VAST 走的是一条完全不同的路:状态与渲染解耦。
这是全球第一个允许对世界状态进行自主维护与确定性控制的世界模型。
所以你问我现在世界模型赛道谁在领跑?我只能说,但凡聊世界模型,VAST 必有一席。这不是吹,这是路线选型决定的。
我试着把 Project Eden 的三个核心能力用人话讲清楚。
能力一:环境长程持久
别人的世界:镜头一转,物体消失。
Eden的世界:你离开一个月再回来,你建的房子还在,你推倒的树还是倒的。
世界状态独立于相机视角,永久存储。这不是存档读档,而是这个世界本身就活着。
能力二:场景自由复用
别人的世界:每次进入都是重新生成,你之前做了什么?对不起,不保存。
Eden的世界:你对世界的任何修改都会被真实留存。比如你扑灭了一场火,后面进来的用户看到的就是灭的。
你可以对底层状态进行读写和动态干预——这意味着你可以建造、破坏、改造,而这些改变会成为世界的一部分。
能力三:多人交互并发
别人的世界:每多一个人,算力指数级增长,根本做不了规模化。
Eden的世界:底层只有一个,渲染按需进行。单一底层世界可以同时承载大量真人用户和 AI 智能体,算力成本可控。
这意味着什么?意味着你可以做大型的社交互动、多人在线内容生态,甚至是集群式的具身智能训练。
这不是渐进式优化,这是架构层面的代际碾压。
这套架构,正在重新定义什么是合格的世界模型。
聊完技术,我们聊聊钱。
我在查资料的时候一直在想一个问题:为什么渶策资本、国寿科创基金、深创投、元生资本这些头部机构,愿意在同一家公司上押注近 2 亿美金?
后来我想明白了。
传统世界模型的商业困境在于:每次交互都要重新生成,算力成本随人数指数增长,你没法规模化。
做一个 demo 可以,做一千个人同时在线的产品,成本直接爆炸。
但 VAST 的架构,状态与渲染解耦,边际成本是可控的。底层世界只需要维护一次,渲染只发生在你看的时候。
这才是资本看到的核心价值——不是做一个酷炫的 demo,而是做一个可以规模化的底层基础设施。
面向普通创作者,Project Eden 可以成为下一代交互式内容创作的底层引擎。你说一句话“一个森林里的小木屋,门口有条小溪,屋前有块大石头”,世界就生成了。
然后你把那块石头搬到溪边,再邀请朋友进来。朋友看到的是石头已经在溪边了,不需要你重新说明我搬过了。
你不需要学建模,不需要写代码,就像在真实世界里随手摆弄东西一样自然。
面向科研和产业,它可以成为具身智能的高质量训练基座。现在的AI训练环境很多是视觉幻象,没有真实的物理规则和因果关系。
但自动驾驶、机器人、工业自动化,需要在一个讲逻辑的世界里训练。Eden 提供了完整物理规则、长时序一致性、可自由干预的仿真环境。
世界模型这条赛道,终于有了一个不健忘的玩家。
有人可能会问:这家公司之前干嘛的?怎么突然就做世界模型了?
其实不是突然。VAST 之前已经做了三年 AI 3D 大模型,产品叫 Tripo,稳居全球赛道首位,拥有 2000 万全球用户。
他们的 3D 大模型每一次迭代都是行业 SOTA。最近上线的 8K 贴图算法,是业内首款原生 8K AI 贴图。
以前资深贴图师手工绘制要 3 到 5 天,成本 500-2000 美元,现在压缩到 2 分钟以内,边际成本几乎为零。


还有 Segmentation V2,智能部件拆分,三档颗粒度控制(低中高),直接服务 3D 打印、游戏开发、工业设计。


开源方面更狠——累计开源超30个项目,与清华、港大联合输出 TripoSplat、AniGen 等成果,很多已经成为全球开发者的标配工具。
逻辑很清晰:3D 大模型的持续领先,让 VAST 具备了将资产从可看推向可交互、可演化的底层条件。世界模型不是凭空蹦出来的,是这条技术路线的自然延伸。
所以你说聊世界模型,为什么绕不开 VAST?
因为他们在这个领域的积累,不是三个月,是三年。
我很喜欢 VAST 说的一句话:
“《创世记》里,人类因偷食禁果被逐出伊甸园。整个西方文明叙事的开端,是一次好奇心被惩罚——求知本身就要付出代价。”
而 Project Eden 想改写这个开端:世界可以拥有成千上万座花园,朝着无需批准的方向恣意生长,结出无数种果实,等待所有人采摘和品尝。
“这座花园没有围墙。”
说实话,这句话让我有点触动。
目前 Project Eden 还没有公开试玩版。但我看了他们的 demo 视频,已经足够让我相信,这条路是对的。
说实话,看了这么多年的AI进展,真正让我觉得下一代交互方式要来了的时刻,屈指可数。
大语言模型让机器学会了和我们对话。
视频生成让机器学会了模拟画面。
而世界模型,让机器终于学会了维持一个世界。
夜雨聆风