乐于分享
好东西不私藏

AI迈向物理世界:朱军教授谈世界模型基石与新范式革命

AI迈向物理世界:朱军教授谈世界模型基石与新范式革命

202653日下午,在庆祝“香港清华同学会成立70周年”峰会上,清华大学人工智能研究院副院长、生数科技创始人朱军教授应邀出席“AI科技创新与产业发展新机遇”论坛。

从海量互联网数据中提炼世界运行的规律,一个统一的“智能底座”正重新定义AI的能力边界,开启从数字内容创作到具身机器人操控的通用智能新篇章。人工智能领域正经历着一场意义深远的范式转移:不再仅仅满足于让AI创作文章、生成图片、编写代码——这些在数字空间内的卓越成就之后,AI下一步的主攻方向正坚定地指向我们身处的、充满物理规律的现实世界。

这个转变的核心引擎,便是我们今天要深入探讨的世界模型。它不只是一种单一技术,而是一个旨在让机器像人类一样理解、预测并与物理世界交互的“智能底座”。

本文根据朱军教授的报告为您深度剖析这一正在发生的变革:它的必要性、实现的路径、核心的难点与突破,以及它描绘出的未来图景。这篇文章将超过3500字,力求专业与通俗兼备,让AI领域的从业者与关心科技趋势的朋友都能有所收获。

第一部分:旧范式的边界与新范式的必然

核心主题:为什么AI必须走向物理世界?

当下的主流人工智能,特别是以大语言模型为代表的AIGC,展现出的能力堪称惊艳。它们仿佛一个拥有无限广博知识的数字大脑,可以通过学习互联网上浩如烟海的文本、图片和视频,创造出无限逼真、富有创意的内容。

然而,主讲人一针见血地指出了其根本局限:“人工智能除了是做问答或者创作之外,它要走向实际的物理世界……我们的智能的上限,需要去突破,可能往往受限于我们的语料或者书本。我们需要去行动。”

换句话说,当前AI智能本质上是数据压缩和模式生成的能力。它知道关于骑自行车的一切书面描述、物理公式和动作分解图,但它无法在一个真实的、有摩擦、有重力的三维空间里,让一个双足或轮式机器人真正骑上一辆自行车。

这个瓶颈,就是智能与物理世界脱钩的鸿沟。而要跨越这道鸿沟,AI就需要掌握对人类而言几乎是常识的能力:理解物体在空间中如何运动(刚体动力学)、理解力的作用与反作用、理解物体的遮挡关系与三维结构、能够预测一个动作会引发的连锁反应……

这正是构建“世界模型”的初衷。世界模型试图赋予AI一个内在的物理模拟器,一个基于理解世界基本规律而建立的预测与规划引擎。它不仅仅是让AI“看到,更要让它明白并将理解转化为行动

这个趋势,是全球顶尖AI实验室的共同方向,也是推动人工智能从感知和描述世界迈向影响和改变世界的关键一跃。

第二部分:何谓“世界模型”?界定、内涵与行业现状

核心主题:拨开迷雾,定义“世界模型”的真实内涵。

“世界模型”一词近来在业界频繁出现,但定义模糊,时常被泛化使用。主讲人引用了2018年该领域开山之作的核心思想,清晰地勾勒出世界模型的三个支柱:

理解(See:不仅仅是识别一个杯子,而是要理解杯子的三维形状、材质、它与桌面的接触关系、它的重量等信息。这是一种对环境状态进行结构化、物理化理解的能力。

预测/想象(Imagine/Predict:在给定当前状态,以及一个潜在的交互意图(例如用手推杯子)时,能够在大脑中脑补出接下来几秒钟会发生什么(杯子会移动、可能会倾倒、杯中的水可能溢出)。这是一种对物理规律进行内化模拟的能力。

行动(Act:这是最关键且常常被虚假世界模型所忽略的一环。根据预测的结果,反向生成一系列精细的、可执行的运动指令,来控制执行机构(如机器人关节、电机)去实现目标,比如用多大力、以什么角度、用多长时间去移动杯子,才能让它平稳地滑向桌沿而不掉下去

这三个支柱构成一个“感知预测行动的认知闭环

对照这个严格定义,主讲人分析了一些在业界被称作“世界模型”的技术,认为它们各有侧重,但尚未达成真正的统一:

第一,交互式视频生成:它可以允许你通过输入文本指令来生成一段逼真视频,例如“一只猫跳上书架”。这确实是“预测未来状态”的一种形式,但它更像一个单向的想象引擎。它生成的视频是供人观看的,无法与物理执行器闭环,形成行动计划。

第二,3D空间重建:可以精准地从2D图像恢复出三维场景的几何结构。这解决了理解Seeing)世界的一大难题,但它仅停留在空间的静态理解层面,不涉及对动态、时序关系和动作指令的生成。

第三,纯视觉模仿学习:传统机器人学习的主流方式。通过收集大量机器人(如机械臂)执行任务时的视频和动作数据,让模型“模仿”人类的操作。它解决了“如何做”(Act)的问题,但其核心是数据的死记硬背,严重缺乏泛化能力和对世界规律的深层理解。给它一个新任务,比如换一种工具或环境布局,它可能完全无法应对。

因此,一个完备的、能够支撑通用物理智能的世界模型,必须是以上三者的集大成者。它是一个同时担任物理学家(理解规律)、 预言家(推演未来)和 指挥官(制定行动)的复合智能体。

第三部分:从“人教”到“自学”:打造世界模型的实践之路

核心主题:数据与架构的双重革命,是实现世界模型的关键。

明确了目标,如何建造这个模型呢?主讲人团队的实践指出了两大突破口:数据来源模型架构

(一)数据革命:从“机器人示范数据”到“互联网视频原生化”

传统机器人学习的最大瓶颈之一就是数据极度匮乏且收集成本高昂。主讲人分享了团队过去的艰难经历:“当时我们花了大概半年多的时间,在100多台机器里面去写这个数据……但是这个过程非常费劲。通过人为标注和操作机器人获取的高质量数据,其规模与互联网上海量的文本、图像、视频数据相比,相差几个数量级。这严重限制了模型的规模和泛化能力。

因此,团队提出了一个颠覆性的思路:“视频原生”预训练

核心思想是:互联网上每天产生的海量、无标注的日常视频(行车记录仪、监控录像、生活Vlog、影视剧……)本身,就是物理世界运行规律的最密集记录载体。每一帧画面、每一秒的运动,都天然蕴含着空间关系、光照变化、物体运动、因果关系等信息。

“我们希望从噪声的这种海量的视频数据里面……作为这个预训练的基础来去学习。”这个过程就像让AI婴儿观看人类世界运行的纪录片,在巨大的数据洪流中,自主提炼出关于空间、时间、动力学和因果关系的基本常识,而不是被人工填鸭式地灌输。

这相当于绕过了机器人数据采集的“人工瓶颈”,将整个人类世界作为AI学习物理常识的无限量、天然数据集。这是实现世界模型规模化、普适化的第一步,也是最核心的一步。

(二)架构革命:从“模块拼接”到“感知行动大一统

另一个根本挑战是模型的设计。传统做法常将“视觉理解模型”、“预测模型”和“动作控制模型”分开设计,然后再尝试“粘合”在一起。这不仅复杂,还容易造成信息损失和“代沟”。

主讲人团队坚信大脑的统一性:“我们认为就我们只有一个系统。它可以做很多事情。所以我们的架构……应该是统一的一个架构。”

因此,他们设计并实现了视频到动作的原生架构。这意味着,从模型设计之初,就将视觉感知、未来预测和动作规划视为一个连续、不可分割的统一学习任务。模型接收视觉输入(视频),通过其内部的统一表征,既能解析场景,也能脑补物理演变,更能直接解码出精细的控制指令。

这种 端到端的架构,是实现理解预测行动闭环高效运行的核心技术保障。它将机器人学习从多模块拼接工程转变为更具美感、更接近生物认知方式的统一学习范式。

第四部分:验证与突破:超越任务,跨越形态的通用智能涌现

核心主题:当统一的世界模型底座建成后,其展现的能力具有变革性意义。

理论是否可行,需要用严酷的实验来验证。主讲人的团队展示了基于上述“视频原生”和“统一架构”理念构建的世界模型底座带来的几个惊人突破:

1. 数据效率的指数级提升

在控制机械臂完成复杂任务(例如模仿人类使用鼠标精确点击验证码)的测试中,该世界模型仅需传统模仿学习方法所需数据的几十分之一,就能达到相同甚至更高的任务成功率。这意味着机器人的“上机学习”成本和周期被大幅压缩,让快速部署成为可能。

2. 任务泛化能力的飞跃

最令人振奋的是模型的泛化能力。基于世界模型训练的控制系统,一个模型就能同时学会并胜任多达50余个性质各异的机器人任务,而且表现良好。这完全打破了传统一个任务,一个专用模型的铁律,展示了模型在掌握了跨任务的根本物理规律后,涌现出的真正通用性。主讲人评价道:这在模仿学习路线中是基本上不可想象的。

3. 打破本体形态的壁垒:迈向真正的通用载体

这是最具革命性的进展。团队的最新成果显示,同一个世界模型(“智能底座”)能够直接驱动和控制形态完全不同的机器人本体,包括业内顶级的轮式移动机器人、双足人形机器人等。

“这是同一个模型支持很多种的这种形体……而且是头部的国内几家的机器人。”这一点的技术意义和社会意义都极其重大:

第一,技术意义:证明该模型输出的不是为某个机器人型号定制的具体动作“肌肉记忆”,而是真正理解任务的空间、物理与逻辑本质,再将这种通用理解转换为对不同运动执行机构(轮子、关节)的控制策略。这是迈向“一个大脑,多种身体”通用智能体的关键一步。

第二,社会意义AI技术提供者不必再为每一款新机器人进行从零开始的深度适配,机器人制造商则可以快速获得一个具备高级通识大脑。主讲人强调团队现在不做本体,专注做大脑,这有利于分工和生态的形成,极大加速整个产业的发展。

第三,可靠性背书:演讲中特别说明,所有演示视频均为“一镜到底,中间没有做剪辑”,这不仅是对技术成熟度的自信展示,也印证了模型在复杂的、开放真实场景中具备了高度的稳定性和鲁棒性。

第五部分:未来已来:一体两翼,定义下一代AI的能力疆界

演讲最后,主讲人描绘了一幅简洁而宏大的蓝图:“我们实际上是打造了一个通用的世界模型的基础。那在这个基础上,我们实际上是可以去……做数字内容创作……另外这个动作解码就直接给机器人了。”

这精准地指明了世界模型这一“智能底座”之上的两条顶级应用赛道,仿佛一只巨鸟的两只强有力的翅膀:

第一,左翼:数字内容创作的巅峰

当模型深刻地理解了物理世界如何运作后,它对高保真、符合物理规律的内容生成能力将是革命性的。无论是生成影视级别的特效、创建虚拟世界,还是进行超越现实的创意构思,AI都将在精准模拟现实的基础上,创作出今天无法想象的作品。这将是对创意产业的全面重塑。

第二,右翼:具身智能与实体经济的深度融合

这将是世界模型产生最大社会经济价值的领域。当模型的控制与执行能力与机器人、自动驾驶、工业自动化等结合,智能将不再局限于云端和手机里,而是走进工厂、走进家庭、走进我们生活的每一条街道和每一个角落。机器人将能在开放、动态的环境中自主执行复杂的任务,从智能制造到柔性物流,从家庭服务到特种作业,其潜力无穷。

结语:中国创新,通用智能前沿的积极贡献者

这次分享清晰地向我们揭示,下一代AI的核心任务,是从一个擅长处理符号和信息的数字大脑,转变为一个能够理解、预测并作用于物理世界的物理大脑。世界模型,就是这个变革的基石。

令人印象深刻的是,主讲人代表的团队以原创性的“视频原生”思想解决了数据瓶颈,以感知行动大一统架构突破了技术藩篱,并在实证中展现出跨任务、跨本体的非凡通用能力。这不只是技术层面的精进,更是对整个技术发展范式的一次跃进。

在世界范围内角逐通用人工智能(AGI)的宏大叙事中,中国科技力量通过这样的原创思考与扎实实践,正在塑造一个属于自己也贡献于全世界的智能未来:一个更强大、更通用,并最终能与人类物理世界深度融合、安全协作的AI

这不仅仅关于赢得一场技术竞赛,更是关于如何以一种负责任且有远见的方式,共同定义我们与未来智能伙伴的共存方式。

备注:本文仅代表王彬老师听完报告能够理解的观点,不代表报告者本人的观点。如发现内容不符,欢迎扫码私信讨论。

★编者简介:

王彬老师(John wang),男,安徽安庆人,香港优秀人才;医学硕士,哲学硕士;清华经管MBA,北大光华EMBA;从事金融和商科教育10余年,辅导了上千名民营企业家和家族二代,为来自360个行业的人士做过职业规划。

现担任香港某头部家族办公室中国区合伙人,为高净值人士和财富家族提供跨境财富管理(海外家族信托、香港美元保险、保险金信托等)、离岸架构搭建、国际身份和子女教育规划等专业化咨询服务。

人的一生最后能积累或传下多少财富,某种意义上,是一个人思维认知和道德修行“变现”的结果。(清北双商科硕士:王彬老师)

(图: 202653日,王彬老师(右)与清华大学杰出校友、香港安徽联谊总会方方会长合影)