AI不再只预测下一个词了:它开始预测世界怎么运转了

6月12日，第八届北京智源大会在北京中关村国际创新中心开幕。

这是一个已经办了八年的AI学术会议。但今年，有一点不一样。

大会的主题是：从"Next-Token Prediction"到"Next Physical State Prediction"。

翻译成人话就是：AI不再只预测下一个词了，它开始预测世界的下一个状态了。

这句话听起来有点绕，但它描述的，可能是AI领域近年来最重要的一次范式切换。

（一）预测词和预测世界，有什么区别

先说一个背景。

过去几年，AI最成功的范式是"预测下一个词"——你输入一段话，AI猜下一个最可能出现的词是什么。ChatGPT、Claude、文心一言，用的都是这个逻辑。

这个范式非常成功。它让AI学会了语言、逻辑、推理，甚至一定的常识。

但它有一个根本性的局限：它只处理符号世界。

文字、代码、图片——这些都是符号。符号可以被复制，可以被替代，可以"看起来对但实际上错"。

真实世界不一样。

真实世界里，物体有重量、有摩擦力、有弹性；液体流动遵循物理定律；机器人抓起一个杯子，需要知道杯子有多重、手要使多少力、放到哪里才不会掉。

这些都是"物理状态"。

从预测词到预测状态，意味着AI要理解世界是怎么运转的，而不只是世界是怎么说话的。

（二）三条线，同一个方向

今年智源大会的核心议程，围绕三个方向展开：

世界模型（World Models）：让AI理解物理世界的运行规律，不只是"看到"图片，而是理解物体之间的关系和物理约束；

通用智能体（General Agents）：让AI从"回答问题"变成"完成任务"，自主规划路径、调用工具、试错迭代；

具身智能（Embodied AI）：让AI"长出身体"，机器人、自动驾驶、AI眼镜，让AI能够操作真实物理世界。

这三条线，听起来是不同的方向，但它们其实有一个共同的底层需求：

AI必须理解物理世界。

不只是在数字空间里打转，而是真正知道"拿起一个杯子需要多少力"、“汽车刹车需要多长距离”、“这杯水倒在地上会怎么流”。

这就是为什么今年大会请来了两位图灵奖得主、40余位AI企业CEO和首席科学家、200余位顶尖专家——

大家要一起解决同一个问题：怎么让AI从"聪明的语言机器"变成"理解世界的智能体"。

（三）为什么是中国在推动这件事

可能有人会问：这件事，为什么是北京智源大会在讨论，而不是硅谷？

原因有两个。

第一，中国有独特的应用场景优势。

在中国，AI落地的速度和广度，可能超过了大多数人的感知。

工厂里的机器人需要理解物理世界，港口的自动驾驶需要理解真实空间，医院里的手术机器人需要精确的力学模型——这些都是实实在在的需求，倒逼AI必须"长出物理感知"。

第二，中国的AI研究力量，已经不是"跟跑"的状态了。

过去几个月，DeepSeek的多项研究引发了全球关注；国产AI芯片完成了万亿参数模型的训练；具身智能领域，国内的人形机器人企业已经在真实场景中部署。

当研究的深度和应用的广度同时在推进，讨论"下一代AI应该往哪走"，中国当然有发言权。

这次大会，有一个细节值得注意：大会首次推出了"智能体听会"功能。

什么意思？

就是你把自己的AI Agent接入大会系统，它会自动听报告、整理要点、生成摘要——大会本身就在用AI来消化AI的内容。

这个做法本身，就是一种宣言：我们讨论的是智能体时代，那我们就用智能体的方式来开会。

（四）这对普通人意味着什么

写到这里，你可能会问：这跟我有什么关系？

关系很大。

如果AI只是"预测词"，它最擅长的领域是：写文章、回答问题、写代码。

但如果AI能"预测世界"，它能做的事情就完全不一样了：

机器人可以帮你做饭、搬东西、照顾老人；

自动驾驶可以真正实现全程无人；

AI可以帮你设计一个新药分子，然后模拟它在人体内的反应；

工厂里，AI可以预测设备什么时候会故障，而不是等坏了再修。

从预测词到预测世界，不是技术参数的升级，是能力边界的跃迁。

写在最后

写这篇文章的时候，我特意回看了一下智源大会的历史。

2019年第一届大会，主题还是"机器学习前沿"——那时候的AI圈，讨论的是怎么训练更大的模型、怎么优化梯度下降。

七年过去了。

今年的大会，图灵奖得主和AI企业CEO同台，讨论的不再是"模型有多大"，而是"AI能不能理解杯子掉到地上会碎"。

这个变化，值得记住。