6月12日,第八届北京智源大会在北京中关村国际创新中心开幕。
这是一个已经办了八年的AI学术会议。但今年,有一点不一样。
大会的主题是:从"Next-Token Prediction"到"Next Physical State Prediction"。
翻译成人话就是:AI不再只预测下一个词了,它开始预测世界的下一个状态了。
这句话听起来有点绕,但它描述的,可能是AI领域近年来最重要的一次范式切换。

(一)预测词和预测世界,有什么区别
先说一个背景。
过去几年,AI最成功的范式是"预测下一个词"——你输入一段话,AI猜下一个最可能出现的词是什么。ChatGPT、Claude、文心一言,用的都是这个逻辑。
这个范式非常成功。它让AI学会了语言、逻辑、推理,甚至一定的常识。
但它有一个根本性的局限:它只处理符号世界。
文字、代码、图片——这些都是符号。符号可以被复制,可以被替代,可以"看起来对但实际上错"。
真实世界不一样。
真实世界里,物体有重量、有摩擦力、有弹性;液体流动遵循物理定律;机器人抓起一个杯子,需要知道杯子有多重、手要使多少力、放到哪里才不会掉。
这些都是"物理状态"。
从预测词到预测状态,意味着AI要理解世界是怎么运转的,而不只是世界是怎么说话的。









(二)三条线,同一个方向
今年智源大会的核心议程,围绕三个方向展开:
世界模型(World Models):让AI理解物理世界的运行规律,不只是"看到"图片,而是理解物体之间的关系和物理约束;
通用智能体(General Agents):让AI从"回答问题"变成"完成任务",自主规划路径、调用工具、试错迭代;
具身智能(Embodied AI):让AI"长出身体",机器人、自动驾驶、AI眼镜,让AI能够操作真实物理世界。
这三条线,听起来是不同的方向,但它们其实有一个共同的底层需求:
AI必须理解物理世界。
不只是在数字空间里打转,而是真正知道"拿起一个杯子需要多少力"、“汽车刹车需要多长距离”、“这杯水倒在地上会怎么流”。
这就是为什么今年大会请来了两位图灵奖得主、40余位AI企业CEO和首席科学家、200余位顶尖专家——
大家要一起解决同一个问题:怎么让AI从"聪明的语言机器"变成"理解世界的智能体"。

(三)为什么是中国在推动这件事
可能有人会问:这件事,为什么是北京智源大会在讨论,而不是硅谷?
原因有两个。
第一,中国有独特的应用场景优势。
在中国,AI落地的速度和广度,可能超过了大多数人的感知。
工厂里的机器人需要理解物理世界,港口的自动驾驶需要理解真实空间,医院里的手术机器人需要精确的力学模型——这些都是实实在在的需求,倒逼AI必须"长出物理感知"。
第二,中国的AI研究力量,已经不是"跟跑"的状态了。
过去几个月,DeepSeek的多项研究引发了全球关注;国产AI芯片完成了万亿参数模型的训练;具身智能领域,国内的人形机器人企业已经在真实场景中部署。
当研究的深度和应用的广度同时在推进,讨论"下一代AI应该往哪走",中国当然有发言权。
这次大会,有一个细节值得注意:大会首次推出了"智能体听会"功能。
什么意思?
就是你把自己的AI Agent接入大会系统,它会自动听报告、整理要点、生成摘要——大会本身就在用AI来消化AI的内容。
这个做法本身,就是一种宣言:我们讨论的是智能体时代,那我们就用智能体的方式来开会。

(四)这对普通人意味着什么
写到这里,你可能会问:这跟我有什么关系?
关系很大。
如果AI只是"预测词",它最擅长的领域是:写文章、回答问题、写代码。
但如果AI能"预测世界",它能做的事情就完全不一样了:
机器人可以帮你做饭、搬东西、照顾老人;
自动驾驶可以真正实现全程无人;
AI可以帮你设计一个新药分子,然后模拟它在人体内的反应;
工厂里,AI可以预测设备什么时候会故障,而不是等坏了再修。
从预测词到预测世界,不是技术参数的升级,是能力边界的跃迁。

写在最后
写这篇文章的时候,我特意回看了一下智源大会的历史。
2019年第一届大会,主题还是"机器学习前沿"——那时候的AI圈,讨论的是怎么训练更大的模型、怎么优化梯度下降。
七年过去了。
今年的大会,图灵奖得主和AI企业CEO同台,讨论的不再是"模型有多大",而是"AI能不能理解杯子掉到地上会碎"。
这个变化,值得记住。
夜雨聆风