
当大语言模型(LLM)的参数狂欢撞上数据枯竭的墙,一种更接近人类认知本质的技术正在接管AI的权杖——世界模型。

文章来源:联想控股微空间(微信号:LEGEND_HOLDINGS)
预计阅读时间:8分钟
一只猫跳上餐桌,碰翻了一杯水。
我们不仅看见“水洒了”,还能瞬间推断出:杯子会碎、桌子会湿、猫会跑。这是刻在人类基因里的物理直觉,但对于过去十年的人工智能,这只是一串像素的剧烈变化。
当大语言模型(LLM)的参数狂欢撞上数据枯竭的墙,一种更接近人类认知本质的技术正在接管AI的权杖——世界模型。它不再仅限于预测下一个Token,而是试图重建一个遵循物理规律的三维宇宙。
这是AI从“读万卷书”向“行万里路”的关键一跃。
大语言模型的天花板:只有“快”没有“慢”
在美国心理学家、诺贝尔经济学奖得主丹尼尔·卡尼曼所著的心理学与行为经济学著作《思考,快与慢》中,他将人类思维分为两套系统:系统1依赖直觉和模式识别,快速但容易出错;系统2负责逻辑推理,缓慢但严谨。
LLM(大语言模型)本质上是纯系统1型智能。它在海量文本中学习统计规律,给出回答的速度惊人,但当你追问“为什么”,它的解释往往经不起推敲。正如人工智能博士、Quant AI Lab创始人贝特朗·哈桑尼所指出的:“大语言模型存在机械性局限——参数量不断增加,高质量数据存在限制,对硬件和能源的需求永无止境。”
更关键的是,LLM无法在脑海中推演“推一下杯子会发生什么”,因为它从未真正“看见”过物体运动。它的知识来自文本,而非对三维世界的感知。这种“纸上谈兵”式的智能,一旦需要和物理世界发生真实交互,局限便会显露。
图灵奖得主杨立昆(Yann LeCun)说得更直接:“如果我们希望大语言模型达到人类的智能水平,那就是死路一条。”他断言,真正的智能必须建立在对三维物理世界的深刻理解之上。
世界模型:让AI学会“想一下再行动”
如果说LLM是博闻强记的“海马体”,那么世界模型就是负责逻辑推演的“前额叶”。它的核心不是在语言空间里做检索,而是在构建一个与现实世界同构的虚拟世界——把高维的感官数据压缩为结构化的物理规律,然后在这个空间里进行预测和推演。
这正是卡尼曼所说的“系统2”能力。世界模型不再满足于“刺激-反应”式的直觉输出,而是在做出决策前,在脑海中预演成千上万种可能性。
这种“三思而后行”的机制,杨立昆用JEPA(联合嵌入预测架构)做了工程化落地。JEPA的核心思路是:不追求像素渲染画面,而是在抽象的隐空间中直接预测“接下来会发生什么”。它跳过视觉噪声,直接捕捉物理本质——不看树叶每一帧的精确轨迹,而是理解“叶子在往下落”这件事本身。基于JEPA的LeWorldModel方案,仅1500万参数、单张GPU就能稳定训练,规划速度比大模型方案快48倍。
企业实践:世界模型赛道的中国力量
世界模型正从概念走向现实应用。国内众多科技企业纷纷入局世界模型赛道,围绕物理智能、多模态融合、具身智能、自动驾驶等多个方向展开技术攻坚与产品落地,整体呈现出多点开花、产学研协同推进的发展态势。
世界模型的出现,是AI从“统计关联”走向“因果理解”,从“被动学习”走向“主动探索”。就像人类的认知发展过程一样,AI也正在经历从“感知”到“理解”的关键一跃。当硅基大脑不仅能记住人类说过的话,还能理解世界运行的规律,能够在头脑中模拟未来,能够从错误中学习,真正的通用人工智能或许就不再遥远。
推荐阅读

• 宝利热搜 •
夜雨聆风