
“世界模型”火了。过去半年,这一概念充斥在自动驾驶、视频生成模型、具身智能等领域。但“世界模型”究竟是什么?很少有人给出明确定义。
6月初,斯坦福大学教授李飞飞撰写万字长文,直言“世界模型”是当下AI领域最被滥用的术语之一,各领域赋予它的内涵截然不同,业内亟须精准定义。
她提出,“世界模型”是强化学习POMDP 闭环的三种不同投影,并把“世界模型”分为三类:渲染器、模拟器以及规划器。
在智源研究院院长王仲远和团队看来,作为下一代人工智能基座模型的重要概念,世界模型应包括四类,分类维度包括语言、像素、三维结构以及视觉表征。

近日,在与第四波智库和媒体对话时,王仲远坦言,过去一年,以OpenAI的Sora为代表,一批使用World Simulator的视频生成模型,被广泛地误等同于世界模型,“这更像是进行世界模拟,并不具备完整的下一个状态预测。”
下一代AI范式变革
不同于理解语言的大语言模型,业内给予“世界模型”以更高的期待,寄希望于它能填补机器理解物理世界的鸿沟。
对其定义,图灵奖得主杨立昆的JEPA系列模型,预测的是视觉表征的压缩,做抽象表征预测;李飞飞主打空间智能;DeepMind 侧重学习仿真派。
王仲远指出,世界模型仍处在发展早期形态,对于真实物理世界的物理常识及模态处理还未拓展,但能确认的是,世界模型是有望与大语言模型相提并论的下一代重大人工智能范式变革。
在王仲远看来,具身智能是世界模型很重要的应用场景,但因为被广泛误用,目前具身智能行业的世界模型,还多是通过大量视频学习后,捕捉到一定的世界知识,即以像素、视频生成为中心跟action的联合训练。而视频生成模型要走向真实的物理世界,就必须去掉科幻、虚幻元素。
他认为,不管是视频学习或是其他方法,最终都会殊途同归。尽管视频生成最开始不是为物理世界设计的,但其中有大量人类真实世界的场景重现,模型要进入真实物理世界,一定离不开后者的数据。
“世界模型所涉及的不同技术路线,都会指向同一个最终的数据需求和模型能力规划。”他说。至于世界模型的训练数据,到底需要视频数据、仿真数据还是真实物理世界的数据,业内还未找到方法路径,“这些因素耦合在一起后,就会发现目前没有哪一款世界模型让人足够惊艳。”
亟待新评测框架的出现
大语言模型(LLM)在海量文本语料库里,以“对下一个token”的预测,能看出它跨多种任务的能力。
“我们提出,世界基座模型需要预测下一个物理状态。”王仲远说,有了世界基座模型和具身大脑的支撑,AI就拥有了跨越“数字虚拟”与“物理现实”之间鸿沟的核心能力。以桌面敞口的水杯为例,拥有聪明“大脑”的机器人不仅能自主识别“杯子在桌子边缘”,还能预判“杯子掉下去会摔碎”带来的不同后果。
再以铁碗不能放进微波炉这一常识为例,王仲远和团队在测评大量User Case后发现,语言模型大多具备这样的知识储备,但目前绝大多数机器人大脑里,还没有诸如该常识的概念,进而影响结果。
“对于世界模型,需要有更多系统性评测。”他透露,今年下半年,智源研究院也会提出一套世界模型的评测框架,会有相应的数据集和方法,“现在的这些评测并不代表未来世界模型的能力。”
在他看来,以物理状态预测为核心的世界模型,很有可能是具身智能未来真正更大的机会和突破所在。此外,要让AI真正进入物理世界,解决制造业、医疗、物流、养老等实体经济的痛点,世界模型就得具备包括物理正确、动作因果可溯、长程一致和通用泛化的能力。
至于世界模型能力有惊艳式迭代的时间点,王仲远推测,未来三到五年,都将是世界模型持续演进和迭代的阶段。
编辑|符永康

END
夜雨聆风