5 月 31 日到 6 月 1 日,两条消息几乎同时出现:
Luma AI 宣布成立 Open Physical AI Lab,方向是用世界模型解决 Physical AI 的泛化问题。
VAST 宣布近 2 亿美元融资,发布 Project Eden——一个面向持久、可交互世界的技术路线图。
一家从 3D capture / 视频生成能力走来,一家从 3D 资产生成走来,却在同一时间把故事讲到了同一个地方。这不是巧合。当 Luma 和 VAST 在同一时间窗口把叙事推向 world model,说明 AI 3D 赛道的核心问题正在变化——不再只是"生成一个好看的东西",而是"生成一个能用的世界"。
Luma:从视频生成走向机器人
Luma 最广为人知的产品是 Dream Machine(视频生成)和早期的 3D capture 能力。2025 年 11 月,Luma 宣布完成 9 亿美元 C 轮融资,由 HUMAIN 领投,AMD Ventures 以及 Andreessen Horowitz、Amplify Partners、Matrix Partners 等既有投资方参与;媒体报道中给出的估值口径约为 40 亿美元。那轮融资时 Luma 已经开始用 "multimodal general intelligence" 定义自己,不再只说视频生成。

Luma 把视频/3D 生成能力进一步指向 Physical AI 和机器人泛化。
这次的 Open Physical AI Lab 把话说得更直白:Luma 要做通用世界模型,目标是让机器人能泛化。
Luma 的核心论点是:当前机器人的根本瓶颈不是硬件,而是数据。机器人只能重复训练数据里见过的任务,碰到新场景就废了。靠遥操作(teleoperation)采集数据来扩展,经济上不可行。所以需要世界模型——用互联网规模的多模态数据(图像、视频、3D)训练出对物理世界的通用理解,再迁移给机器人。
这个逻辑链条说得通,但有一个关键假设需要验证: 从视频和图像中学到的"世界理解",到底能多大程度迁移到机器人的物理交互上?视频模型擅长的是视觉预测——给定当前帧,预测下一帧看起来什么样。但机器人需要的是动作条件预测——执行某个动作后,世界状态会怎么变。这两者之间有没有足够的共享表征,目前并没有定论。
Luma 选择用"开放实验室"的形式推进,邀请机器人团队和研究机构参与,这是一个聪明的做法——既验证了技术假设,也不必一开始就把自己变成机器人公司。但对 3D 视觉从业者来说,值得关注的信号是:视频/3D 生成公司的进化方向,已经越过了"更长更清晰的视频",直接指向空间理解和物理推理。
VAST:3D 资产生成公司为什么要做"世界"
VAST 的起点完全不同。大家认识它是因为文生 3D、图生 3D,解决的是创作者和游戏开发者"快速拿到可用 3D 模型"的问题。这次 VAST 宣布完成 Series A+ / A++ 融资,合计近 2 亿美元,同时推出 Project Eden。

Project Eden 强调把世界状态与视觉渲染解耦。
Project Eden 的技术架构比较有意思,是一个三层解耦设计:
结构化状态层:维护底层 3D 世界状态——场景几何、物体身份、属性、事件逻辑。世界独立于任何单一视角存在。
状态到观察的接口层:把世界状态转换为不同视角下的语义和几何条件,保证多视角一致性。
生成式渲染层:基于状态条件实时生成视觉输出。
这个架构的核心思路是把世界状态和视觉渲染分开。用 VAST 首席科学家曹炎培的话说,这更像游戏引擎的方式——世界有确定性的物理模拟,砖头砸到玻璃窗就会碎,不靠模型去"猜"下一帧该长什么样。
这条路线比纯视频生成的世界模型更接近工程系统。 视频生成模型主要在像素空间做插值和外推,很难稳定维护物体身份、状态变化和物理规则。而 VAST 的方案强调显式或结构化的世界状态,再用生成模型做渲染——这意味着编辑、持久化、多人协作都有结构化的基础,不是在"幻觉"上建房子。
当然,roadmap 归 roadmap。要做到持久、多人、可编辑、低延迟、可工程集成,每一项都是独立的硬问题。但至少方向设定是对的:3D 生成的价值天花板不在单个模型的精度上,在于能不能承载一个可持续运转的世界。
这不是两家公司的故事
Luma 和 VAST 只是最新的两个信号。过去一年,world model 已经成了 3D/机器人/视频生成领域的公共关键词:
NVIDIA Cosmos:从 Physical AI 切入,Cosmos 3 把视觉推理、世界生成、动作预测放进同一框架。
Google DeepMind Genie 3:从可交互环境切入,能从提示生成可探索的世界。
World Labs:主打 spatial intelligence,强调 AI 应该能理解、生成和操作 3D 空间。
加上视频生成、游戏平台、AR/空间计算公司从各自领域往同一方向靠拢——视频生成要可控可交互,3D 生成要从素材走向场景,机器人要低成本生成训练环境,AR/游戏要可持续存在的空间。
这些需求最终都会撞到同一堵墙:生成结果能不能变成可维护的空间状态?
对 3DV 从业者,哪些事值得关注
与其争论"谁才是真正的世界模型",不如看具体技术问题:
短期(1-2 年)最先受益的方向:
3D 场景表示的工程化。3DGS、mesh、point cloud 这些表示方法,过去主要在论文里比指标。一旦要承载持久世界状态,工程问题就变成核心问题——压缩、流式传输、增量更新、多用户并发编辑。做这些方向的人会发现工业需求突然变多了。
动态场景建模。静态重建已经相当成熟,但世界模型要求场景会变化——物体移动、用户操作、物理交互。动态 3DGS、4D 表示、场景图更新,这些方向的实用价值会快速上升。
几何一致性和物理约束。视频生成模型最大的短板就是几何不一致——换个角度就穿帮。world model 对一致性的要求远高于视频生成,这会重新拉高对几何重建基础能力的需求。
中长期值得押注的方向:
结构化世界表征。未来的世界模型可能不是端到端的黑盒,而是显式状态 + 生成渲染的混合体。这对做场景理解、语义分割、场景图的研究者是好消息。
世界模型和具身智能的接口。视觉世界模型如果要服务机器人训练,中间需要动作条件化、因果推理、可供性预测等能力,都是 3DV 和机器人交叉的活跃方向。
但也要保守一点看。world model 这个词现在很热,短期内很容易被各类生成产品借用;真正难的不是做一个看起来能探索的 demo,而是让空间状态、交互、物理和长期一致性在真实任务里稳定成立。
这也是这些动作真正值得关注的地方:它们把下一阶段的问题定义得更清楚了。生成式 3D 如果要继续往前走,就必须处理空间状态、交互、物理和长期一致性。这意味着 3D 视觉里很多"老"问题—几何重建、场景表示、动态建模、实时渲染——会以新的形式重新变成核心能力。
AI 3D 的重心正在从"生成更好看的资产",转向"生成更可维护、可交互、可复用的世界"。这一步还早,但方向已经值得 3DV 从业者持续跟进。
相关资源:
Luma Open Physical AI Lab:https://lumalabs.ai/news/luma-open-physical-ai-lab
VAST 融资:https://www.36kr.com/p/3834111984363401
Project Eden:tripo3d.ai/research/project-eden
GamesBeat 对 Tripo AI 的采访:gamesbeat.com/tripo-ai-raises-nearly-200m-in-financing-for-ai-3d-and-world-model-tech/
NVIDIA Cosmos:nvidia.com/en-us/ai/cosmos/
Google DeepMind Genie 3:deepmind.google/models/genie/
World Labs:worldlabs.ai
本文为个人观点,如有错误请指正,转载请注明出处,欢迎大家交流。
夜雨聆风