智源发布全球首个通用世界基座模型,AI从＂猜词＂迈向＂懂物理＂

6月12日上午，第八届北京智源大会在北京中关村国际创新中心开幕。本届大会汇聚了2015年图灵奖得主、公钥密码学之父惠特菲尔德·迪菲（Whitfield Diffie），以及2024年图灵奖得主、强化学习奠基人安德鲁·巴托（Andrew Barto）等顶尖学者。开幕式由智源研究院理事长黄铁军主持，之江实验室主任、阿里云创始人王坚亦出席并与会对话。

大会的核心议程聚焦于人工智能范式的代际跃迁。大会现场，大屏幕播放的一段演示视频让台下安静了下来：桌沿的一只玻璃杯缓缓滑落。在传统AI的生成世界里，这只杯子往往会违反重力悬浮在空中，或者诡异地穿过桌面，但在智源研究院院长王仲远发布的悟界·Physis-v0.1模型中，杯子伴随着清脆的拟真音效瞬间炸裂。这是业界首个尝试将训练目标从传统的“预测下一个词（Next-Token Prediction）”转向“预测下一个物理状态（Next-State Prediction）”的通用世界基座模型。

过去几年，大语言模型极其擅长“猜词”，它们能从海量语料中算出概率最高的下一个字，却在面对物理常识时漏洞百出。而Physis要做的是让AI真正“看懂”世界：当它看到“杯子在桌沿”这一帧画面时，它脑中推演的不是像素的分布，而是即将发生的下一状态——重力如何拉扯它加速下落、撞击地面时的应力变化以及破碎的物理轨迹。为了实现这一点，智源团队将视觉、深度、3D点云乃至力觉等全模态信息统一编码，构建了一个能推演物理演变规律的数字引擎。

这种范式的迁移，正在重塑AI的研发逻辑。这意味着竞争焦点已从对话框里的唇枪舌剑，转向了物理世界的真实落地。机器人要想真正走出实验室，走进杂乱无章的家庭和工厂，光靠“眼睛”看是不够的，它必须拥有一个能预判“我这么做会发生什么”的大脑，Physis所扮演的正是这个底层引擎的角色。

王仲远在演讲中保持了学术界的审慎，他强调版本号后的“v0.1”是对科学探索阶段的界定。但他也明确指出，当AI开始学会尊重重力、理解碰撞，它的下半场才刚刚开始。

图片源自智源大会官方