人工智能领域正在经历一场深刻的范式转变。当前,以大语言模型(LLM)为代表的“生成式AI”在内容创作和知识处理上表现出色,但其能力主要局限于数字世界。当AI需要走进工厂、道路、家庭,在真实的物理世界中自主行动时,仅仅“会说话”是远远不够的。陈孝良研究员近日在科学网发表了一篇题为《大模型、世界模型与物理AI》的科普文章,概括阐述了AI从“文科生”(大模型)迈向“理科生”(世界模型),并最终成为“工科生”(物理AI)的技术演进路径与核心挑战。
过去几年,人工智能最显著的进展来自大语言模型。它们擅长写作、翻译、编程和问答。然而,当AI从屏幕走向现实,面对机器人、自动驾驶等任务时,仅处理语言和符号已不敷使用。真实世界要求系统理解空间、时间、材料、力、光、声以及动作的后果。
一个生动的类比是:大语言模型像“文科生”,擅长语言、知识与沟通;世界模型(World Model)则像“理科生”,关心空间、时间、运动、因果与物理变化;而物理AI(Physical AI)则是“工科生”,需将前两者的能力结合,在真实或仿真环境中闭环执行任务。这个类比不是为了区分高低,而是为了说明AI正在发生的方向性变化:从“生成内容”走向“理解世界、预测世界、操作世界”。
世界模型并非全新概念,其核心思想可追溯至强化学习中的“模型化”方法。简言之,世界模型是“AI对外部世界如何变化的内部预测器”。它不仅要识别物体,更要预测动作的后果,例如杯子靠近桌边会掉落、玻璃落地会破碎。
物理AI则更进一步,特指能让机器人、自动驾驶车辆等自主系统在真实物理世界中感知、理解、推理并执行复杂动作的AI,其关键在于形成“感知-预测-行动”的闭环。
目前,构建世界模型主要通过以下五条路径演进:
核心思想是让智能体在内部学习的“世界模型”(或称“梦境”)中预测未来、规划行动,再将策略迁移到现实,从而大幅降低真实试错的成本与风险。代表性工作如DreamerV3。
将大规模视频生成作为构建物理世界模拟器的路径。其挑战在于从生成“画面逼真”的视频,升级到模拟“事件后果合理”的动态。代表性工作包括OpenAI的Sora、Google的Genie。
该路线不要求逐像素生成未来画面,而是在抽象的表征(潜)空间中进行预测,学习对行动有用的世界抽象结构。其理念由Yann LeCun提出的联合嵌入预测架构(JEPA)奠定,Meta的V-JEPA系列是代表。
目标是从生成二维画面,升级为生成可编辑、可导航、可交互的3D世界。这对于游戏、影视、数字孪生、机器人训练等领域至关重要。代表如World Labs的Marble模型。
这是最接近物理AI落地形态的路线,旨在将视觉理解、语言指令与动作生成直接结合,服务于机器人。代表工作有Google DeepMind的Gemini Robotics、NVIDIA的GR00T。
真实世界的感知是多模态的,光学与声学信息互补,共同约束对环境的理解。光学提供几何、材质、遮挡等信息;声学则能提供声源定位、空间尺度、材料属性乃至视觉盲区的事件线索。
因此,一个成熟的世界模型必须具备多模态一致性,不能出现明显的声画矛盾。例如,画面是小会议室,声音却像大教堂;或物体从左侧划过,声源却固定在右侧。对于机器人和自动驾驶,声音可作为重要的补充传感器,检测异常摩擦、振动或警报。
研究表明,结合视觉与声学信息能更好地建模物理场景。例如,神经声场(Neural Acoustic Fields)研究用隐式表示建模声音传播;“Hearing Hands”工作则研究了手与物体交互产生的声音规律。声音不是画面的“配乐”,而是物理世界不可分割的感知维度。
评价世界模型的成熟度,不能仅看演示视频的震撼程度,而应关注以下六个维度的能力:
-
时间一致性:物体、人物在时间流中应保持连续,不无故消失或变形。
-
空间一致性:场景从不同视角观察,其布局、尺度关系应保持一致。
-
物理一致性:运动、碰撞、形变等需符合基本物理规律。
-
动作可控性:模型应能根据给定的行动条件,预测不同的未来状态。
-
多模态一致性:视觉、声音、语言等信息应指向同一世界状态。
-
真实可迁移性:在仿真中学到的能力,能否迁移到复杂、多变的真实世界。
目前,业界已出现如WorldScore、PhysBench、PhyWorldBench等基准测试,专门用于系统评估上述能力。
世界模型的终极价值在于成为物理AI的基础设施,其应用前景广阔:
-
高质量物理数据稀缺,特别是带有时空标注、多模态、涉及极端情况的数据。
-
长时程因果推理困难,维持长序列中的物理一致性与逻辑链是难题。
-
神经网络是否真“懂”物理?模型对重力、摩擦、材料属性等深层规律的理解仍需严格检验。
-
仿真到现实的差距,以及由此带来的安全、责任与部署难题。
大语言模型让AI学会了“文科”的表达,世界模型正试图让AI掌握“理科”的物理直觉。两者的融合,将孕育出能够解决实际问题的“工科生”——物理AI。未来的关键不只是模型能否生成更漂亮的视频,而是它能否稳定回答一个更重要的问题:如果我在这个世界中采取某个动作,接下来会发生什么?当AI能更可靠地回答这个问题,它就不再只是内容生成工具,而会成为机器人、自动驾驶、工业仿真、空间智能和复杂工程系统的重要基础。
参考来源:本文转载自科学网(Sciencenet.cn)陈孝良的科普文章《大模型、世界模型与物理AI》,原文链接:https://blog.sciencenet.cn/blog-1375795-1532769.html.
[免责声明]:本文所含部分信息与图片源自相关文献和报道资料,其版权归属原作者所有。本公众号分享内容旨在学习交流,保持观点中立。如有发现侵犯您的权益,请后台联系编辑,我们会尽快删除相关侵权内容。