AI迈向物理世界:朱军教授谈世界模型基石与新范式革命-夜雨聆风

AI迈向物理世界:朱军教授谈世界模型基石与新范式革命

2026年5月3日下午，在庆祝“香港清华同学会成立70周年”峰会上，清华大学人工智能研究院副院长、生数科技创始人朱军教授应邀出席“AI科技创新与产业发展新机遇”论坛。

从海量互联网数据中提炼世界运行的规律，一个统一的“智能底座”正重新定义AI的能力边界，开启从数字内容创作到具身机器人操控的通用智能新篇章。人工智能领域正经历着一场意义深远的范式转移：不再仅仅满足于让AI创作文章、生成图片、编写代码——这些在数字空间内的卓越成就之后，AI下一步的主攻方向正坚定地指向我们身处的、充满物理规律的现实世界。

这个转变的核心引擎，便是我们今天要深入探讨的‌“世界模型”‌。它不只是一种单一技术，而是一个旨在让机器‌像人类一样理解、预测并与物理世界交互‌的“智能底座”。

本文根据朱军教授的报告为您深度剖析这一正在发生的变革：它的必要性、实现的路径、核心的难点与突破，以及它描绘出的未来图景。这篇文章将超过3500字，力求专业与通俗兼备，让AI领域的从业者与关心科技趋势的朋友都能有所收获。

‌第一部分：旧范式的边界与新范式的必然‌

‌核心主题：为什么AI必须走向物理世界？‌

当下的主流人工智能，特别是以大语言模型为代表的AIGC，展现出的能力堪称惊艳。它们仿佛一个拥有无限广博知识的数字大脑，可以通过学习互联网上浩如烟海的文本、图片和视频，创造出无限逼真、富有创意的内容。

然而，主讲人一针见血地指出了其根本局限：“人工智能除了是做问答或者创作之外，它要走向实际的物理世界……我们的智能的上限，需要去突破，可能往往受限于我们的语料或者书本。我们需要去行动。”

换句话说，当前AI的“智能”本质上是‌数据压缩和模式生成的能力‌。它知道关于“骑自行车”的一切书面描述、物理公式和动作分解图，但它无法在一个真实的、有摩擦、有重力的三维空间里，让一个双足或轮式机器人真正骑上一辆自行车。

这个瓶颈，就是‌智能与物理世界脱钩的鸿沟‌。而要跨越这道鸿沟，AI就需要掌握对人类而言几乎是“常识”的能力：理解物体在空间中如何运动（刚体动力学）、理解力的作用与反作用、理解物体的遮挡关系与三维结构、能够预测一个动作会引发的连锁反应……

这正是构建“世界模型”的初衷。世界模型试图赋予AI一个“内在的物理模拟器”，一个基于理解世界基本规律而建立的‌预测与规划引擎‌。它不仅仅是让AI“看到”，更要让它“明白”并将“理解”转化为“行动”。

这个趋势，是全球顶尖AI实验室的共同方向，也是推动人工智能从‌“感知和描述世界”迈向“影响和改变世界”‌的关键一跃。

‌第二部分：何谓“世界模型”？界定、内涵与行业现状‌

‌核心主题：拨开迷雾，定义“世界模型”的真实内涵。‌

“世界模型”一词近来在业界频繁出现，但定义模糊，时常被泛化使用。主讲人引用了2018年该领域开山之作的核心思想，清晰地勾勒出世界模型的三个支柱：

‌理解（See）‌：不仅仅是识别“一个杯子”，而是要理解杯子的三维形状、材质、它与桌面的接触关系、它的重量等信息。这是一种对环境状态进行结构化、物理化理解的能力。

‌预测/想象（Imagine/Predict）‌：在给定当前状态，以及一个潜在的交互意图（例如“用手推杯子”）时，能够在大脑中“脑补”出接下来几秒钟会发生什么（杯子会移动、可能会倾倒、杯中的水可能溢出）。这是一种对物理规律进行内化模拟的能力。

‌行动（Act）‌：这是最关键且常常被“虚假”世界模型所忽略的一环。根据预测的结果，反向生成一系列精细的、可执行的‌运动指令‌，来控制执行机构（如机器人关节、电机）去实现目标，比如“用多大力、以什么角度、用多长时间去移动杯子，才能让它平稳地滑向桌沿而不掉下去”。

这三个支柱构成一个‌“感知–预测–行动”的认知闭环‌。

对照这个严格定义，主讲人分析了一些在业界被称作“世界模型”的技术，认为它们各有侧重，但尚未达成真正的统一：

‌第一，交互式视频生成‌：它可以允许你通过输入文本指令来生成一段逼真视频，例如“一只猫跳上书架”。这确实是“预测未来状态”的一种形式，但它更像一个‌单向的想象引擎‌。它生成的视频是供人观看的，无法与物理执行器闭环，形成行动计划。

‌第二，3D空间重建‌：可以精准地从2D图像恢复出三维场景的几何结构。这解决了“理解”（Seeing）世界的一大难题，但它‌仅停留在空间的静态理解层面‌，不涉及对动态、时序关系和动作指令的生成。

‌第三，纯视觉模仿学习‌：传统机器人学习的主流方式。通过收集大量机器人（如机械臂）执行任务时的视频和动作数据，让模型“模仿”人类的操作。它解决了“如何做”（Act）的问题，但其核心是‌数据的“死记硬背”‌，严重缺乏泛化能力和对世界规律的深层理解。给它一个新任务，比如换一种工具或环境布局，它可能完全无法应对。

因此，一个完备的、能够支撑通用物理智能的世界模型，必须是以上三者的集大成者。它是一个同时担任‌“物理学家”‌（理解规律）、 ‌“预言家”‌（推演未来）和 ‌“指挥官”‌（制定行动）的复合智能体。

‌第三部分：从“人教”到“自学”：打造世界模型的实践之路‌

‌核心主题：数据与架构的双重革命，是实现世界模型的关键。‌

明确了目标，如何建造这个模型呢？主讲人团队的实践指出了两大突破口：‌数据来源‌和‌模型架构‌。

‌（一）数据革命：从“机器人示范数据”到“互联网视频原生化”‌

传统机器人学习的最大瓶颈之一就是‌数据极度匮乏且收集成本高昂‌。主讲人分享了团队过去的艰难经历：“当时我们花了大概半年多的时间，在100多台机器里面去写这个数据……但是这个过程非常费劲。”通过人为标注和操作机器人获取的“高质量”数据，其规模与互联网上海量的文本、图像、视频数据相比，相差‌几个数量级‌。这严重限制了模型的规模和泛化能力。

因此，团队提出了一个颠覆性的思路：‌“视频原生”预训练‌。

核心思想是：互联网上每天产生的海量、无标注的日常视频（行车记录仪、监控录像、生活Vlog、影视剧……）本身，就是物理世界运行规律的最密集记录载体。每一帧画面、每一秒的运动，都天然蕴含着空间关系、光照变化、物体运动、因果关系等信息。

“我们希望从噪声的这种海量的视频数据里面……作为这个预训练的基础来去学习。”这个过程就像让AI婴儿“观看”人类世界运行的“纪录片”，在巨大的数据洪流中，‌自主提炼出关于空间、时间、动力学和因果关系的基本常识‌，而不是被人工“填鸭式”地灌输。

这相当于绕过了机器人数据采集的“人工瓶颈”，将整个人类世界作为AI学习物理常识的无限量、天然数据集。这是实现世界模型规模化、普适化的第一步，也是最核心的一步。

‌（二）架构革命：从“模块拼接”到“感知–行动大一统”‌

另一个根本挑战是模型的设计。传统做法常将“视觉理解模型”、“预测模型”和“动作控制模型”分开设计，然后再尝试“粘合”在一起。这不仅复杂，还容易造成信息损失和“代沟”。

主讲人团队坚信大脑的统一性：“我们认为就我们只有一个系统。它可以做很多事情。所以我们的架构……应该是统一的一个架构。”

因此，他们设计并实现了‌“视频到动作的原生架构”‌。这意味着，从模型设计之初，就将视觉感知、未来预测和动作规划视为一个连续、不可分割的统一学习任务。模型接收视觉输入（视频），通过其内部的统一“表征”，既能解析场景，也能“脑补”物理演变，更能直接解码出精细的控制指令。

这种 ‌“端到端”‌的架构，是实现“理解–预测–行动”闭环高效运行的核心技术保障。它将机器人学习从多模块“拼接工程”转变为更具美感、更接近生物认知方式的统一学习范式。

‌第四部分：验证与突破：超越任务，跨越形态的通用智能涌现‌

‌核心主题：当统一的世界模型底座建成后，其展现的能力具有变革性意义。‌

理论是否可行，需要用严酷的实验来验证。主讲人的团队展示了基于上述“视频原生”和“统一架构”理念构建的世界模型底座带来的几个惊人突破：

‌1. 数据效率的指数级提升‌

在控制机械臂完成复杂任务（例如模仿人类使用鼠标精确点击验证码）的测试中，‌该世界模型仅需传统模仿学习方法所需数据的几十分之一‌，就能达到相同甚至更高的任务成功率。这意味着机器人的“上机学习”成本和周期被大幅压缩，让快速部署成为可能。

‌2. 任务泛化能力的飞跃‌

最令人振奋的是模型的泛化能力。基于世界模型训练的控制系统，‌一个模型就能同时学会并胜任多达50余个性质各异的机器人任务‌，而且表现良好。这完全打破了传统“一个任务，一个专用模型”的铁律，展示了模型在掌握了‌跨任务的根本物理规律‌后，涌现出的真正通用性。主讲人评价道：“这在模仿学习路线中是基本上不可想象的。”

‌3. 打破本体形态的壁垒：迈向真正的“通用载体”‌

这是最具革命性的进展。团队的最新成果显示，‌同一个世界模型（“智能底座”）能够直接驱动和控制形态完全不同的机器人本体‌，包括业内顶级的轮式移动机器人、双足人形机器人等。

“这是同一个模型支持很多种的这种形体……而且是头部的国内几家的机器人。”这一点的技术意义和社会意义都极其重大：

第一，‌技术意义‌：证明该模型输出的不是为某个机器人型号定制的具体动作“肌肉记忆”，而是真正理解任务的‌空间、物理与逻辑本质‌，再将这种通用理解转换为对不同运动执行机构（轮子、关节）的控制策略。这是迈向“一个大脑，多种身体”通用智能体的关键一步。

‌第二，社会意义‌：AI技术提供者不必再为每一款新机器人进行从零开始的深度适配，机器人制造商则可以快速获得一个具备高级“通识”的“大脑”。主讲人强调团队“现在不做本体”，专注做“大脑”，这有利于分工和生态的形成，极大加速整个产业的发展。

‌第三，可靠性背书‌：演讲中特别说明，所有演示视频均为“一镜到底，中间没有做剪辑”，这不仅是对技术成熟度的自信展示，也印证了模型在‌复杂的、开放真实场景‌中具备了高度的稳定性和鲁棒性。

‌

第五部分：未来已来：一体两翼，定义下一代AI的能力疆界‌

‌演讲最后，主讲人描绘了一幅简洁而宏大的蓝图：“我们实际上是打造了一个通用的世界模型的基础。那在这个基础上，我们实际上是可以去……做数字内容创作……另外这个动作解码就直接给机器人了。”

这精准地指明了世界模型这一“智能底座”之上的两条顶级应用赛道，仿佛一只巨鸟的两只强有力的翅膀：

‌第一，左翼：数字内容创作的巅峰‌

当模型深刻地理解了物理世界如何运作后，它对‌高保真、符合物理规律‌的内容生成能力将是革命性的。无论是生成影视级别的特效、创建虚拟世界，还是进行超越现实的创意构思，AI都将在精准模拟现实的基础上，创作出今天无法想象的作品。这将是对创意产业的全面重塑。

‌第二，右翼：具身智能与实体经济的深度融合‌

这将是世界模型产生最大社会经济价值的领域。当模型的控制与执行能力与机器人、自动驾驶、工业自动化等结合，智能将不再局限于云端和手机里，而是走进工厂、走进家庭、走进我们生活的每一条街道和每一个角落。机器人将能在开放、动态的环境中自主执行复杂的任务，从智能制造到柔性物流，从家庭服务到特种作业，其潜力无穷。

‌结语：中国创新，通用智能前沿的积极贡献者‌

这次分享清晰地向我们揭示，下一代AI的核心任务，是从一个擅长处理符号和信息的“数字大脑”，转变为一个能够理解、预测并作用于物理世界的“物理大脑”。世界模型，就是这个变革的基石。

令人印象深刻的是，主讲人代表的团队以‌原创性的“视频原生”思想‌解决了数据瓶颈，以‌“感知–行动大一统架构”‌突破了技术藩篱，并在实证中展现出跨任务、跨本体的非凡通用能力。这不只是技术层面的精进，更是对整个技术发展范式的一次跃进。

在世界范围内角逐通用人工智能（AGI）的宏大叙事中，中国科技力量通过这样的原创思考与扎实实践，正在塑造一个属于自己也贡献于全世界的智能未来：一个更强大、更通用，并最终能与人类物理世界深度融合、安全协作的AI。

这不仅仅关于赢得一场技术竞赛，更是关于如何以一种负责任且有远见的方式，共同定义我们与未来智能伙伴的共存方式。

备注：本文仅代表王彬老师听完报告能够理解的观点，不代表报告者本人的观点。如发现内容不符，欢迎扫码私信讨论。

★编者简介：

王彬老师（John wang），男，安徽安庆人，香港优秀人才；医学硕士，哲学硕士；清华经管MBA，北大光华EMBA；从事金融和商科教育10余年，辅导了上千名民营企业家和家族二代，为来自360个行业的人士做过职业规划。

现担任香港某头部家族办公室中国区合伙人，为高净值人士和财富家族提供跨境财富管理（海外家族信托、香港美元保险、保险金信托等）、离岸架构搭建、国际身份和子女教育规划等专业化咨询服务。

人的一生最后能积累或传下多少财富，某种意义上，是一个人思维认知和道德修行“变现”的结果。（清北双商科硕士：王彬老师）

（图： 2026年5月3日，王彬老师（右）与清华大学杰出校友、香港安徽联谊总会方方会长合影）