智源发布全球首个通用世界基座模型,AI从"猜词"迈向"懂物理"6月12日上午,第八届北京智源大会在北京中关村国际创新中心开幕。本届大会汇聚了2015年图灵奖得主、公钥密码学之父惠特菲尔德·迪菲(Whitfield Diffie),以及2024年图灵奖得主、强化学习奠基人安德鲁·巴托(Andrew Barto)等顶尖学者。开幕式由智源研究院理事长黄铁军主持,之江实验室主任、阿里云创始人王坚亦出席并与会对话。大会的核心议程聚焦于人工智能范式的代际跃迁。大会现场,大屏幕播放的一段演示视频让台下安静了下来:桌沿的一只玻璃杯缓缓滑落。在传统AI的生成世界里,这只杯子往往会违反重力悬浮在空中,或者诡异地穿过桌面,但在智源研究院院长王仲远发布的悟界·Physis-v0.1模型中,杯子伴随着清脆的拟真音效瞬间炸裂。这是业界首个尝试将训练目标从传统的“预测下一个词(Next-Token Prediction)”转向“预测下一个物理状态(Next-State Prediction)”的通用世界基座模型。过去几年,大语言模型极其擅长“猜词”,它们能从海量语料中算出概率最高的下一个字,却在面对物理常识时漏洞百出。而Physis要做的是让AI真正“看懂”世界:当它看到“杯子在桌沿”这一帧画面时,它脑中推演的不是像素的分布,而是即将发生的下一状态——重力如何拉扯它加速下落、撞击地面时的应力变化以及破碎的物理轨迹。为了实现这一点,智源团队将视觉、深度、3D点云乃至力觉等全模态信息统一编码,构建了一个能推演物理演变规律的数字引擎。这种范式的迁移,正在重塑AI的研发逻辑。这意味着竞争焦点已从对话框里的唇枪舌剑,转向了物理世界的真实落地。机器人要想真正走出实验室,走进杂乱无章的家庭和工厂,光靠“眼睛”看是不够的,它必须拥有一个能预判“我这么做会发生什么”的大脑,Physis所扮演的正是这个底层引擎的角色。王仲远在演讲中保持了学术界的审慎,他强调版本号后的“v0.1”是对科学探索阶段的界定。但他也明确指出,当AI开始学会尊重重力、理解碰撞,它的下半场才刚刚开始。图片源自智源大会官方