AI的下一站:从读懂语言,到理解世界

点击“科技元界”关注我们

过去一年，AI行业越来越频繁地谈到一个问题：大模型已经很会说话、写代码、生成图片和视频，但它到底懂不懂真实世界？这个问题并不新。

早在上世纪，心理学家 Kenneth Craik 就提出，人脑会在内部建立一个“小模型”，用来预判外部世界会怎样变化。后来，随着大模型在一些领域应用的局限性，世界模型应运而生——真正的智能不能只会处理符号和语言，还要能理解环境、预测变化，并据此做决策。

6月12日，在北京智源大会上，智源研究院推出了世界模型最新成果，悟界·Physis-v0.1和悟界·Robo-Brain Orca。

智源研究院院长王仲远提到，为什么现在的机器人不能像人类一样到处走，执行各种各样的任务？

智源研究院院长王仲远

因为世界常识、世界物理规律是缺乏的，可以在操作台上、流水线上很好地完成一些特定的任务，但不具备泛化性和通用性。

一瓶未开封的水和盛满咖啡的杯子放在桌子旁，人类能够预测两者跌落时产生的物理状态和对真实物理世界的影响，其差异是很大的，水瓶掉下去可能只会产生撞击声音，但咖啡却会洒落一地，这就是人类的世界模型。

王仲远表示，随着Next-Token Prediction研发的深入，可以看到人工智能正在发生一场重大的范式变革。早年大语言模型处理的是文字，而多模态模型开始引入图像、音频、脑信号，接下来要解决的就是真实物理空间的时空问题、物理规律、物理常识。

所以，世界模型要解决是“AI能不能判断一个动作之后会发生什么”。机器人抓杯子，杯子会不会滑落？自动驾驶看到行人，下一秒该不该减速？智能体操作设备，按下按钮后系统会出现什么变化？这些都不是简单的文字接龙，而是对真实世界状态变化的预测。

智源研究院是国内最早提出并开展世界模型研究的科研机构。

2023年智源大会上，图灵奖得主杨立昆（Yann LeCun）就阐述了新一代世界模型的概念；2024年智源大会上，智源研究院提出的人工智能大模型技术路线预判，明确指出世界模型是下一代大模型技术；2024年发布的悟界·Emu3和2025年发布的悟界·Emu3.5，更是全球首个原生多模态世界模型。

基于在大模型领域持续的技术积累与前瞻布局，2026年悟界·Physis-v0.1的诞生正是基于智源对人工智能发展路径的判断以及从“悟道”到“悟界”的技术传承与延续。

01 从“预测下一个词”到“预测下一个物理状态”

过去几年，大语言模型的核心能力可以简单理解为“预测下一个词”。你输入“今天天气很”，模型预测后面可能是“好”；你输入一段代码，它预测下一行代码；你提出一个问题，它预测最合适的回答。

这套方法推动了大模型的爆发，但它也有边界。语言只是世界的描述，不是世界本身。一个模型可以回答“苹果会从树上掉下来”，也可以生成一段杯子落地的视频，但这不代表它真正理解重力、碰撞、摩擦和因果关系。

智源认为，现有世界模型相关的技术路线可分为四类：

第一类是以语言为中心的世界模型，包括VLM、VLA，模型在文本空间中预测下一个词，学到的是语言描述的世界，并不能理解背后的物理后果；

第二类是以像素为中心的世界模型，像Sora和Seedance等视频生成类模型，在视觉空间中学习视频或图像，学到的是像素描述的世界；

第三类是以三维结构为中心的世界模型，包括3D重建以及李飞飞团队的World Labs Marble模型，不过模型重建3D空间不等于理解世界，几何结构也不代表物理状态；

第四类是以视觉表征为中心的世界模型，比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

智源这次强调从预测下一个词，走向预测下一个物理状态，这个变化很关键。

因为AI如果只停留在屏幕里，语言和图像能力已经能解决很多问题；但一旦进入机器人、自动驾驶、工业制造、科学实验等真实场景，它就必须理解时间、空间、物体、动作和后果之间的关系。

另外，我们不能将世界模型简单地理解为视频生成模型。世界模型变热，很大程度上和视频生成模型有关。Sora、Seedance等模型出现后，很多人开始把“能生成逼真视频”直接等同于“拥有世界模型”。但这其实是一种误读。

视频生成模型确实能从大量视频中学到一些世界知识，但“画面连续”不等于“物理正确”。一个模型可以生成一群猪在天上和飞机一起飞，画面也许很真实，但这显然不符合现实物理规律。

当然，世界模型现在还处在早期阶段。行业还没有完全形成共识：它到底应该怎么训练、需要什么数据、如何评测、哪些能力才算真正理解世界。这也是智源此次发布Physis-v0.1的意义所在——试图把世界模型落到具体模型和技术路径上。

此前，悟界·Emu3和Emu3.5已经尝试把文本、图像、视频放在统一框架中，实现多模态理解和生成。到了这次大会，智源进一步推出正在研发中的悟界·Physis-v0.1，并将其定位为通用世界基座模型。

Physis的核心目标，就是围绕物理空间建模，预测下一个物理状态。它强调几个关键词：物理正确、动作因果可溯、长程一致、通用泛化。

这个状态的高级之处在于，它不能只是生成好看的画面，还要符合真实物理规律；它要知道某个结果是由哪个动作造成的；它不能只预测眼前一秒，还要能推演更长时间内的变化；它也不能只在见过的场景里有效，换个房间、换个物体、换个任务，也要尽量能用。

智源研究院还提到，Physis会把视频、深度RGB、3D点云、力触反馈等多种信息压缩到统一的物理状态空间里。这里的力触反馈，可以理解为机器人在接触、抓取、推动物体时感受到的力。人类理解世界不只靠眼睛，也靠手感和身体反馈。

AI如果要进入真实世界，也需要类似的多模态能力。

02 具身智能是世界模型最直接的应用方向

世界模型要落地，具身智能很可能是最重要的方向之一。

这次智源提到的悟界·RoboBrain Orca，就是以“预测下一个物理状态”为核心构建的具身大脑。所谓具身大脑，可以理解为机器人的“大脑系统”。它不只是识别图像，也不只是输出动作，而是要打通“认知—预测—行动”的链路。

对机器人来说，这一点尤其关键。聊天机器人说错一句话，影响还停留在信息层面；机器人在现实世界中做错一个动作，可能会打碎物品，甚至带来安全风险。因此，机器人不能只会“看见”，还要能理解自己所处的环境，预测动作后果，并根据反馈调整下一步行动。

当然，今天的世界模型还不能马上让机器人像人一样灵活。无论是悟界·Physis，还是悟界·RoboBrain Orca，都更像是一个早期但重要的方向信号。

它说明行业正在意识到：如果AI要真正走出屏幕，进入家庭、工厂、道路和实验室，世界模型大概率是绕不开的底层能力。

热闹之外，真正的难题还在后面，它接下来至少还要解决几道难题。

第一是数据。语言模型可以学习互联网文本，视频模型可以学习海量视频，但真实物理世界的数据更复杂。机器人交互数据、力触觉数据、连续状态变化数据，都不容易大规模获得。

第二是训练方法。到底该更多依赖真实数据，还是仿真数据？合成数据能用多少？仿真世界和真实世界之间的差距如何弥合？这些都还需要长期探索

第三是评测体系。过去很多评测更关注视频是否逼真，但世界模型真正要回答的是：能不能预测下一个物理状态？能不能理解动作后果？能不能在真实任务中稳定工作？

第四是安全。AI一旦进入物理世界，风险会更直接。它不仅要聪明，还必须可控、可信、可靠。

世界模型现在还远没有到“答案揭晓”的阶段，但它提出了一个足够重要的问题：AI的下一步，不能只是在屏幕里生成内容，而是要学会理解真实世界，并在真实世界中行动。

推荐阅读

北京车展复盘：透视硬科技与伪创新

芯片未来，向时间要算力

宇树科技IPO背后：市场与市值的正面交锋

计时 5 天！人形机器人跑半马，真相藏不住了

1.5亿美元押注地瓜机器人的资本阳谋

2026太空算力产业大会举行天地协同计算进入协同发展新阶段

2026年一季度机器人领域融资汇总

盘点2026Q1机器人领域十大事件

星辰道合：解码商业航天守护空天安全的底层逻辑（下）

星辰道合：解码商业航天守护空天安全的底层逻辑（上）

穿透AWE丨看2026具身智能五大新风向

一文搞清楚，全网爆火的“养龙虾”到底是什么？