世界模型:AI的「慢思考」进化

当大语言模型（LLM）的参数狂欢撞上数据枯竭的墙，一种更接近人类认知本质的技术正在接管AI的权杖——世界模型。

文章来源：联想控股微空间（微信号：LEGEND_HOLDINGS）

预计阅读时间：8分钟

一只猫跳上餐桌，碰翻了一杯水。

我们不仅看见“水洒了”，还能瞬间推断出：杯子会碎、桌子会湿、猫会跑。这是刻在人类基因里的物理直觉，但对于过去十年的人工智能，这只是一串像素的剧烈变化。

当大语言模型（LLM）的参数狂欢撞上数据枯竭的墙，一种更接近人类认知本质的技术正在接管AI的权杖——世界模型。它不再仅限于预测下一个Token，而是试图重建一个遵循物理规律的三维宇宙。

这是AI从“读万卷书”向“行万里路”的关键一跃。

大语言模型的天花板：只有“快”没有“慢”

在美国心理学家、诺贝尔经济学奖得主丹尼尔·卡尼曼所著的心理学与行为经济学著作《思考，快与慢》中，他将人类思维分为两套系统：系统1依赖直觉和模式识别，快速但容易出错；系统2负责逻辑推理，缓慢但严谨。

LLM（大语言模型）本质上是纯系统1型智能。它在海量文本中学习统计规律，给出回答的速度惊人，但当你追问“为什么”，它的解释往往经不起推敲。正如人工智能博士、Quant AI Lab创始人贝特朗·哈桑尼所指出的：“大语言模型存在机械性局限——参数量不断增加，高质量数据存在限制，对硬件和能源的需求永无止境。”

更关键的是，LLM无法在脑海中推演“推一下杯子会发生什么”，因为它从未真正“看见”过物体运动。它的知识来自文本，而非对三维世界的感知。这种“纸上谈兵”式的智能，一旦需要和物理世界发生真实交互，局限便会显露。

图灵奖得主杨立昆（Yann LeCun）说得更直接：“如果我们希望大语言模型达到人类的智能水平，那就是死路一条。”他断言，真正的智能必须建立在对三维物理世界的深刻理解之上。

世界模型：让AI学会“想一下再行动”

如果说LLM是博闻强记的“海马体”，那么世界模型就是负责逻辑推演的“前额叶”。它的核心不是在语言空间里做检索，而是在构建一个与现实世界同构的虚拟世界——把高维的感官数据压缩为结构化的物理规律，然后在这个空间里进行预测和推演。

这正是卡尼曼所说的“系统2”能力。世界模型不再满足于“刺激-反应”式的直觉输出，而是在做出决策前，在脑海中预演成千上万种可能性。

这种“三思而后行”的机制，杨立昆用JEPA（联合嵌入预测架构）做了工程化落地。JEPA的核心思路是：不追求像素渲染画面，而是在抽象的隐空间中直接预测“接下来会发生什么”。它跳过视觉噪声，直接捕捉物理本质——不看树叶每一帧的精确轨迹，而是理解“叶子在往下落”这件事本身。基于JEPA的LeWorldModel方案，仅1500万参数、单张GPU就能稳定训练，规划速度比大模型方案快48倍。

企业实践：世界模型赛道的中国力量

世界模型正从概念走向现实应用。国内众多科技企业纷纷入局世界模型赛道，围绕物理智能、多模态融合、具身智能、自动驾驶等多个方向展开技术攻坚与产品落地，整体呈现出多点开花、产学研协同推进的发展态势。

在具身智能领域，国内团队着力突破传统视觉-语言-动作架构的瓶颈，深耕原生多模态融合技术，打造适配真实物理环境的基础模型。

不少团队实现了视觉、听觉、触觉等多类感知数据的一体化联合训练，让模型具备同步接收、处理、输出多模态信息的能力；同时重点攻克物理规律感知难题，让 AI 能够识别并运用重力、惯性、摩擦力等基础物理规则。

在此基础上，相关技术成果开始走向民用场景，依托新一代智能机器人落地家庭服务场景，并且模型普遍搭载自主迭代机制，可在任务执行失败后主动调整策略，沉淀经验并优化自身能力，持续提升复杂场景适配性。

在自动驾驶方向，国内相关企业聚焦出行场景下的世界模型研发，着重强化模型的自主诊断、自我进化能力。行业内逐步摆脱依赖人工排查问题、定向采集数据迭代模型的传统模式，探索让 AI 自主发现运行短板、生成模拟训练场景，甚至反向辅助研发团队完善数据体系与技术方案。

目前这类世界模型已大规模搭载在高阶自动驾驶车队中，通过实时推演道路环境变化、预判车辆与周边物体的交互行为，持续提升行车安全性、乘坐舒适性与道路通行效率，也让国内车载 AI 逐步形成初步的元认知能力。

除此之外，还有大量团队发力人形机器人认知系统研发，尝试融合高阶认知能力与全身运动控制技术，打造 “思考与行动一体化” 的智能体系统。相关技术方案打通了感知、记忆、决策、运动控制全链路，一方面构建长效感知记忆体系，让智能体持续积累对物理世界的认知；另一方面优化全身动态控制算法，保障机器人在楼梯、凹凸路面等复杂现实环境中稳定运动，推动人形机器人从实验室原型逐步走向实用化阶段。

整体来看，国内企业不再局限于传统大语言模型的赛道竞争，纷纷转向物理世界原生 AI的探索，推动 AI 技术从单纯学习文本统计规律，转向理解现实世界因果逻辑、主动探索环境、从实践中自我进化。国内世界模型相关技术正快速完成从理论架构、算法研发到场景落地的全链条转化，不断缩小与国际前沿技术的差距，为通用人工智能的发展积累本土化技术与应用经验。

世界模型的出现，是AI从“统计关联”走向“因果理解”，从“被动学习”走向“主动探索”。就像人类的认知发展过程一样，AI也正在经历从“感知”到“理解”的关键一跃。当硅基大脑不仅能记住人类说过的话，还能理解世界运行的规律，能够在头脑中模拟未来，能够从错误中学习，真正的通用人工智能或许就不再遥远。

推荐阅读