AI 3D 的下一站:从生成资产,走向生成可用世界

5 月 31 日到 6 月 1 日，两条消息几乎同时出现：

Luma AI 宣布成立 Open Physical AI Lab，方向是用世界模型解决 Physical AI 的泛化问题。
VAST 宣布近 2 亿美元融资，发布 Project Eden——一个面向持久、可交互世界的技术路线图。

一家从 3D capture / 视频生成能力走来，一家从 3D 资产生成走来，却在同一时间把故事讲到了同一个地方。这不是巧合。当 Luma 和 VAST 在同一时间窗口把叙事推向 world model，说明 AI 3D 赛道的核心问题正在变化——不再只是"生成一个好看的东西"，而是"生成一个能用的世界"。

Luma：从视频生成走向机器人

Luma 最广为人知的产品是 Dream Machine（视频生成）和早期的 3D capture 能力。2025 年 11 月，Luma 宣布完成 9 亿美元 C 轮融资，由 HUMAIN 领投，AMD Ventures 以及 Andreessen Horowitz、Amplify Partners、Matrix Partners 等既有投资方参与；媒体报道中给出的估值口径约为 40 亿美元。那轮融资时 Luma 已经开始用 "multimodal general intelligence" 定义自己，不再只说视频生成。

Luma 把视频/3D 生成能力进一步指向 Physical AI 和机器人泛化。

这次的 Open Physical AI Lab 把话说得更直白：Luma 要做通用世界模型，目标是让机器人能泛化。

Luma 的核心论点是：当前机器人的根本瓶颈不是硬件，而是数据。机器人只能重复训练数据里见过的任务，碰到新场景就废了。靠遥操作（teleoperation）采集数据来扩展，经济上不可行。所以需要世界模型——用互联网规模的多模态数据（图像、视频、3D）训练出对物理世界的通用理解，再迁移给机器人。

这个逻辑链条说得通，但有一个关键假设需要验证： 从视频和图像中学到的"世界理解"，到底能多大程度迁移到机器人的物理交互上？视频模型擅长的是视觉预测——给定当前帧，预测下一帧看起来什么样。但机器人需要的是动作条件预测——执行某个动作后，世界状态会怎么变。这两者之间有没有足够的共享表征，目前并没有定论。

Luma 选择用"开放实验室"的形式推进，邀请机器人团队和研究机构参与，这是一个聪明的做法——既验证了技术假设，也不必一开始就把自己变成机器人公司。但对 3D 视觉从业者来说，值得关注的信号是：视频/3D 生成公司的进化方向，已经越过了"更长更清晰的视频"，直接指向空间理解和物理推理。

VAST：3D 资产生成公司为什么要做"世界"

VAST 的起点完全不同。大家认识它是因为文生 3D、图生 3D，解决的是创作者和游戏开发者"快速拿到可用 3D 模型"的问题。这次 VAST 宣布完成 Series A+ / A++ 融资，合计近 2 亿美元，同时推出 Project Eden。

Project Eden 强调把世界状态与视觉渲染解耦。

Project Eden 的技术架构比较有意思，是一个三层解耦设计：

结构化状态层：维护底层 3D 世界状态——场景几何、物体身份、属性、事件逻辑。世界独立于任何单一视角存在。
状态到观察的接口层：把世界状态转换为不同视角下的语义和几何条件，保证多视角一致性。
生成式渲染层：基于状态条件实时生成视觉输出。

这个架构的核心思路是把世界状态和视觉渲染分开。用 VAST 首席科学家曹炎培的话说，这更像游戏引擎的方式——世界有确定性的物理模拟，砖头砸到玻璃窗就会碎，不靠模型去"猜"下一帧该长什么样。

这条路线比纯视频生成的世界模型更接近工程系统。 视频生成模型主要在像素空间做插值和外推，很难稳定维护物体身份、状态变化和物理规则。而 VAST 的方案强调显式或结构化的世界状态，再用生成模型做渲染——这意味着编辑、持久化、多人协作都有结构化的基础，不是在"幻觉"上建房子。

当然，roadmap 归 roadmap。要做到持久、多人、可编辑、低延迟、可工程集成，每一项都是独立的硬问题。但至少方向设定是对的：3D 生成的价值天花板不在单个模型的精度上，在于能不能承载一个可持续运转的世界。

这不是两家公司的故事

Luma 和 VAST 只是最新的两个信号。过去一年，world model 已经成了 3D/机器人/视频生成领域的公共关键词：

NVIDIA Cosmos：从 Physical AI 切入，Cosmos 3 把视觉推理、世界生成、动作预测放进同一框架。
Google DeepMind Genie 3：从可交互环境切入，能从提示生成可探索的世界。
World Labs：主打 spatial intelligence，强调 AI 应该能理解、生成和操作 3D 空间。

加上视频生成、游戏平台、AR/空间计算公司从各自领域往同一方向靠拢——视频生成要可控可交互，3D 生成要从素材走向场景，机器人要低成本生成训练环境，AR/游戏要可持续存在的空间。

这些需求最终都会撞到同一堵墙：生成结果能不能变成可维护的空间状态？

对 3DV 从业者，哪些事值得关注

与其争论"谁才是真正的世界模型"，不如看具体技术问题：

短期（1-2 年）最先受益的方向：

3D 场景表示的工程化。3DGS、mesh、point cloud 这些表示方法，过去主要在论文里比指标。一旦要承载持久世界状态，工程问题就变成核心问题——压缩、流式传输、增量更新、多用户并发编辑。做这些方向的人会发现工业需求突然变多了。
动态场景建模。静态重建已经相当成熟，但世界模型要求场景会变化——物体移动、用户操作、物理交互。动态 3DGS、4D 表示、场景图更新，这些方向的实用价值会快速上升。
几何一致性和物理约束。视频生成模型最大的短板就是几何不一致——换个角度就穿帮。world model 对一致性的要求远高于视频生成，这会重新拉高对几何重建基础能力的需求。

中长期值得押注的方向：

结构化世界表征。未来的世界模型可能不是端到端的黑盒，而是显式状态 + 生成渲染的混合体。这对做场景理解、语义分割、场景图的研究者是好消息。
世界模型和具身智能的接口。视觉世界模型如果要服务机器人训练，中间需要动作条件化、因果推理、可供性预测等能力，都是 3DV 和机器人交叉的活跃方向。

但也要保守一点看。world model 这个词现在很热，短期内很容易被各类生成产品借用；真正难的不是做一个看起来能探索的 demo，而是让空间状态、交互、物理和长期一致性在真实任务里稳定成立。

这也是这些动作真正值得关注的地方：它们把下一阶段的问题定义得更清楚了。生成式 3D 如果要继续往前走，就必须处理空间状态、交互、物理和长期一致性。这意味着 3D 视觉里很多"老"问题—几何重建、场景表示、动态建模、实时渲染——会以新的形式重新变成核心能力。

AI 3D 的重心正在从"生成更好看的资产"，转向"生成更可维护、可交互、可复用的世界"。这一步还早，但方向已经值得 3DV 从业者持续跟进。

相关资源：

Luma Open Physical AI Lab：https://lumalabs.ai/news/luma-open-physical-ai-lab
VAST 融资：https://www.36kr.com/p/3834111984363401
Project Eden：tripo3d.ai/research/project-eden
GamesBeat 对 Tripo AI 的采访：gamesbeat.com/tripo-ai-raises-nearly-200m-in-financing-for-ai-3d-and-world-model-tech/
NVIDIA Cosmos：nvidia.com/en-us/ai/cosmos/
Google DeepMind Genie 3：deepmind.google/models/genie/
World Labs：worldlabs.ai

本文为个人观点，如有错误请指正，转载请注明出处，欢迎大家交流。