
(图源:量子号)
自人类进入人工智能时代以来,大语言模型几乎定义了人工智能的发展方向:模型越来越大,能力越来越强。
但当算力、数据和成本开始逼近极限,人们开始意识到一个新的问题——语言,真的是智能的全部吗?
据《科学》(Science)2026年6月25日的一篇深度报道:
越来越多研究者开始把目光投向另一条道路:不是让AI学习更多文字,而是让它先学会理解世界。
本文8000多字,目录如下:
第一章 大语言模型,走到新十字路口
1. 大模型之后,AI开始学习“世界”
2. 一条改变整个行业的发展规律
3. 巨额投入,让大模型一路狂奔
4. 大语言模型,已展现惊人能力
5. 尺度扩展,开始碰到现实瓶颈
6. 大语言模型没真正“经历”世界
7. 为什么这会成为真正的问题?
8. 今天最聪明AI,还不如一只猫
第二章 人类怎样学会理解世界?
9. 下一代AI,需要“世界模型”
10. 人类与大模型学习方式完全不同
11. 人类孩子,反着学习语言
12. 为什么亲身体验如此重要?
第三章 AI开始学习世界
13. AI学习世界的两条路线
14. 谷歌:让AI先在虚拟世界中成长
15. 英伟达:先虚拟训练再进入现实
16. 世界模型仍落后于大语言模型
17. 世界模型最大的难题:缺数据
第四章 杨立昆押注另一条路
18. 更丰富、更加稀缺的世界数据
19. JEPA:预测世界而非每个像素
20. AI开始在“脑海”中推演未来
第五章 世界模型会取代大语言模型吗?
21. 大语言模型远没走到尽头
22. 为何大模型还不断出现新能力?
23. 世界模型真比大语言模型更好吗?
24. 下一代AI,或许不是非此即彼

《科学》(Science)报道截图
过去几年,人工智能的发展几乎都围绕着一种模型展开——大语言模型。
从ChatGPT、Claude,到Gemini、Grok,它们不断刷新人们对于人工智能能力的认知,也让整个行业形成了一种几乎不容置疑的共识:模型越大,能力越强。
但现在,这条路线正在遭遇越来越多挑战。
越来越多研究者开始认为,仅靠不断扩大模型规模,或许无法真正通向通用人工智能(AGI)。真正接近人类智能的下一步,也许不是继续学习更多文字,而是让人工智能像人一样,在一个真实或模拟的世界里探索、行动、犯错、学习。
于是,一场新的竞争开始了。
第一章
大语言模型,走到新十字路口
1.
大模型之后,AI开始学习“世界”
在纽约一家人工智能初创公司的办公室里,一个人工智能系统正在实时创造属于自己的世界。
记者进入一款电子游戏,在房间之间穿梭、与其他角色互动,而游戏中的每一帧画面,都是由位于新泽西州数据中心的服务器即时生成。
不过,这套系统原本并不是为了人类玩家设计的。
当记者暂停操作后,一个自主人工智能智能体立刻接管游戏继续行动。
“这是一个人工智能,在另一个人工智能创造出来的世界里玩游戏。”
“通用直觉”(General Intuition)联合创始人亚当·杰利(Adam Jelley)这样形容。
这家公司押注一种全新的人工智能发展路径:让人工智能智能体在模拟世界中不断行动、试错和学习,而不是仅仅依赖互联网文本训练。
他们认为,这种方式最终有望超越目前主导行业的大语言模型,也就是支撑ChatGPT、Claude、Gemini和Grok等聊天机器人的核心技术。
2.
一条改变整个行业的发展规律
过去十多年,人工智能行业一直奉行一个几乎无需证明的信念:
模型越大,能力越强。
这一观点的重要依据,来自2020年发表的一篇影响深远的论文。
当时,来自约翰斯·霍普金斯大学的理论物理学家、论文负责人贾里德·卡普兰(Jared Kaplan)发现,只要持续增加三个因素中的任何一个:
模型规模;
训练数据量;
训练所使用的计算资源;
模型性能都会持续提升。
卡普兰回忆说,他们当时“对此结果非常惊讶”。
更重要的是,这种关系在多个数量级范围内都保持高度一致。
后来,这一规律被称为“尺度定律”(Scaling Laws)。
对于整个人工智能产业来说,它释放出的信号非常明确:
几乎不惜一切代价,把模型做得更大。
3.
巨额投入,让大模型一路狂奔
自那篇论文发表以来,整个行业几乎完全沿着这条路线前进。
如今,各家公司每年投入数千亿美元建设人工智能模型。
这些模型拥有数千亿、甚至上万亿个可调参数,训练所使用的数据则来自互联网抓取的数万亿词语和图片。
例如,OpenAI最新一代GPT模型,据估计已经比2020年最大的GPT模型大了数倍,训练数据规模也增加了一个数量级。
近年来,行业又增加了另一种新的扩展方式——测试阶段计算。
简单来说,就是让模型在回答问题之前花更多时间“思考”。
这样,即使不继续扩大模型规模,也能进一步提升表现。
4.
大语言模型,已展现惊人能力
过去几年,大语言模型取得的成果令人印象深刻。
如今,它们已经能够:
通过律师资格考试;
通过医生执照考试;
在国际数学奥林匹克竞赛中达到顶尖高中生水平;
创作出许多读者认为比人类作品更加优美的诗歌;
帮助顶级程序员完成大部分代码编写工作。
如今,卡普兰已经成为Anthropic联合创始人兼首席科学家。
他依然相信,大语言模型的发展空间远未耗尽。
在他看来,过去几年模型性能几乎始终遵循着2020年提出的尺度定律。
他甚至把这种情况称为一种“自我实现的预言”。
卡普兰表示,在可预见的未来,如果某项研究没有呈现出清晰的尺度增长规律,那很可能说明研究方向本身存在问题。
5.
尺度扩展,开始碰到现实瓶颈
不过,并非所有研究人员都相信,大语言模型可以无限扩展下去。
有人认为,这条路线已经开始接近现实世界的边界。
事实上,卡普兰2020年的论文本身就指出,模型性能提升遵循的是一种幂律(power law)关系。
这意味着,每获得一点新的性能提升,都需要投入比之前更多得多的资源。
与此同时,可用于训练模型的数据也正在变得越来越稀缺。
2024年的一项研究估计,再过几年,高质量公开文本数据就可能被消耗殆尽。
计算资源同样面临限制。
虽然芯片性能和算法效率仍在持续提高,但提升速度已经难以跟上模型扩张的需求。
目前正在建设的数据中心,许多单个设施未来都将消耗数吉瓦电力,对电网形成巨大压力。
6.
大语言模型没真正“经历”世界
除了资源瓶颈,一些研究人员认为,大语言模型还存在更加根本性的局限。
无论是能够进行推理的大语言模型,还是同时处理图像与文字的多模态模型,它们本质上都在完成同一件事情:
预测下一个Token(词元)。
所谓Token,可以理解为文本或图像中的一个基本数据片段。
模型首先利用海量数据学习统计规律,再经过进一步微调,让回答变得更加有用、更加可靠。
但它们并没有真正经历自己描述的那个世界。
它们无法主动验证一个假设,也无法亲自探索一个环境。
对于因果关系,它们获得的是一种间接学习,而不是亲身体验。
这种能力足以生成流畅的解释,也能够提出看似合理的计划。
然而,一旦任务真正依赖于理解现实世界中行动所带来的后果,它们往往会暴露不足。
例如,当研究人员要求模型思考如何把一些日常物品稳定地堆叠起来时,它们有时会给出明显违背常识的答案。
7.
为什么这会成为真正的问题?
这些缺陷,在现实世界中并非无关紧要。
没有多少人会愿意让一个大语言模型担任儿童心理治疗师,也不会放心让它成为一名警察。
谷歌DeepMind研究科学家简·王(Jane Wang)表示,大语言模型确实越来越强,但不能简单地认为,只要继续向模型投入更多数据,它就会神奇地不断变好。
与此同时,OpenAI首席科学家雅库布·帕霍茨基(Jakub Pachocki)认为,文本智能仍然拥有巨大发展空间。
但他也指出,一个事实已经非常清楚:
人类进行推理,并不仅仅依靠语言。
越来越多研究人员因此相信,如果希望真正实现类人智能,也就是通用人工智能,仅仅掌握语言和图像远远不够。
未来的人工智能,还必须能够理解:
空间;
因果关系;
行动产生的后果。
尤其是在未来承担人形机器人控制、工厂自动化运行以及外星探索等任务时,这些能力将变得不可或缺。
8.
今天最聪明AI,还不如一只猫
很少有人像人工智能先驱杨立昆(Yann LeCun)那样,长期坚持这一观点。
他甚至开玩笑说:
今天最聪明的人工智能系统,其智能水平还不如一只家猫。
当然,一只猫不会像大语言模型那样编写程序。
但它能够依靠自己的判断在现实世界中生存。
在杨立昆看来,认为只要不断扩大大语言模型规模,就一定能够实现通用人工智能,这种想法“完全是无稽之谈”。
他说:
“这就像认为,只要不断改进飞机,最终就能飞入轨道一样。”
他认为,硅谷目前流行着一种极其强烈的幻想,即不断扩展大语言模型最终能够解决一切问题。
第二章
人类怎样学会理解世界?
9.
下一代AI,需要“世界模型”
后来,杨立昆离开了自己在Meta担任的重要职位,与其他研究人员共同创办了一家新的研究机构。
目前,越来越多实验室和初创企业都开始投入一种新的技术方向——世界模型(World Models)。
所谓世界模型,是指人工智能内部建立起关于现实世界如何运作的表示,并让智能体在其中进行学习、规划和决策。
这些研究人员最终希望,通过更加接近人类学习方式的方法,为人工智能赋予全新的能力。
他们认为,人类与大语言模型之间的差距,并不仅仅是规模上的差距,而是学习方式本身存在根本不同。
押注世界模型的不只有杨立昆。
2024年,被誉为"人工智能教母"的李飞飞创立“世界实验室”(World Labs),获得数亿美元融资,希望构建能够理解和生成三维世界的AI系统。
随着Meta、谷歌DeepMind、Nvidia以及一批初创公司纷纷布局,世界模型正在成为继大语言模型之后最受关注的新方向。
10.
人类与大模型学习方式完全不同
2024年的一项研究进一步说明,人类智能与大语言模型之间的差异,并不仅仅体现在能力高低上。
研究人员曾让大语言模型学习纽约出租车的行驶路线。
训练结束后,模型已经能够可靠地生成新的路线,看起来仿佛已经掌握了纽约市地图。
但当研究人员进一步分析模型内部究竟学到了什么时,却发现情况完全不是这样。
模型内部并不存在一张清晰、有组织的城市地图,而是一团彼此缠绕、毫无条理的街道表示。
布伦登·莱克(Brenden Lake)是普林斯顿大学认知科学家,也是这项研究的重要参与者。
他说,大语言模型的内部工作方式“非常陌生,也非常不像人类”。
11.
人类孩子,反着学习语言
莱克长期研究儿童如何学习。
他曾利用数百小时幼儿头戴摄像机拍摄的视频,训练人工智能,希望了解仅凭这些输入能够学到什么。
他发现,儿童学习语言所需的数据远远少于大语言模型。
儿童接触的是数百万个词,而不是数万亿个词。
但更重要的区别并不在数据规模。
真正关键的是,在真正开始学习语言之前,孩子通常已经花了一两年时间探索世界。
他们会:
触摸各种物体;
在空间中不断移动;
观察世界如何对自己的行为作出反应。
而今天的大语言模型,则几乎完全相反。
它们首先学习语言,然后才试图理解世界。
莱克认为:
人工智能的发展顺序,被彻底颠倒了。
12.
为什么亲身体验如此重要?
在莱克看来,这种差异意义重大。
在人类天生的好奇心驱动下,人们会不断尝试、不断实验,并能够灵活组合已经掌握的简单概念。
例如,一个孩子学会跳跃之后,就能够:
跳到门口;
再跳回来;
一边唱歌一边跳。
大语言模型当然也能够即兴完成很多任务。
但莱克认为,它们始终表现出一种令人沮丧的特点:
一方面显得非常聪明,另一方面却又不断出现各种离奇的失败。
他认为,问题的根源在于,大语言模型缺乏身体,也缺乏真实世界中的体验。
人工智能需要像儿童一样学习。
他说:
“如果人工智能希望像人类一样真正理解一个词,它就必须扎根于现实世界中的真实对象。”
第三章
AI开始学习世界
13.
AI学习世界的两条路线
越来越多实验室和人工智能公司,已经开始朝这一方向尝试。
它们希望打造的,不再只是聊天机器人,而是能够通过体验、互动和实验学习的一般人工智能系统。
目前,研究人员主要沿着两条路线推进。
第一条路线,是让智能体先在模拟世界里不断试错学习,再把学到的能力迁移到现实世界。
第二条路线,则是在智能体内部建立一个能够预测未来发展的世界模型,让它在真正行动之前,先在脑海中模拟各种可能发生的结果。
如果借用一个形象的比喻:
第一种属于在线体验世界;
第二种更像是先在脑海里推演世界。
它们分别对应快速反应和深思熟虑两种不同类型的智能。
14.
谷歌:让AI先在虚拟世界中成长
沿着第一条路线,谷歌DeepMind开发了一系列名为精灵(Genie)的世界模型。
这些模型能够根据文字提示或视频,直接生成一个可以自由探索的三维环境。
整个过程,几乎就像即时创造出一个电子游戏世界。
这些虚拟环境随后成为人工智能智能体的训练场。
其中,一个名为“可扩展可指令多世界智能体(Scalable Instructable Multiworld Agent,简称SIMA)的系统,就是建立在Gemini模型基础之上。
由于接受了大量不同世界的训练,SIMA即使进入从未见过的新环境,也能够理解并执行各种任务。
例如:
探索陌生场景;
识别从未见过的新物体;
推测这些物体可能由什么材料构成。
谷歌DeepMind研究总监施洛米·弗鲁赫特(Shlomi Fruchter)认为,这类智能体真正的应用价值远远不止游戏。
例如,它完全可以成为未来科学实验室中的人工智能科研助手,在不断变化的实验环境中自主完成工作。
他说,如果人工智能无法真正执行现实中的物理任务,那么它能够带来的影响将十分有限。
15.
英伟达:先虚拟训练再进入现实
人工智能芯片公司英伟达已经将这一理念进一步带入现实。
该公司的做法是,先让人工智能智能体在模拟环境中接受训练,然后再部署到真实机器人身上。
未来,这些机器人将能够在仓库、工厂等真实环境中工作。
在那里,仅仅具备抽象推理能力远远不够,还必须能够在充满变化和不确定性的环境中完成精确协调的动作。
英伟达开发的通用机器人基础模型(GR00T),能够同时接收摄像头画面和自然语言指令,再将其转换成机器人实际执行的动作。
在演示中,由GR00T控制的机器人可以完成一项在人类看来极其简单的任务:
把一个土豆放进微波炉,然后关上炉门。
但对于机器人而言,这个过程涉及复杂的动作协调、路径规划以及连续决策。
与此同时,英伟达还开发了一种名为梦境零(DreamZero)的世界模型。
参与该项目开发的朱宇科(Yuke Zhu)是得克萨斯大学奥斯汀分校计算机科学家。
他介绍说,DreamZero会预测机器人执行某个动作之后,外部世界将如何发生变化,从而帮助机器人更快适应陌生环境和新的任务。
16.
世界模型仍落后于大语言模型
不过,与已经能够解决国际数学奥林匹克竞赛题目、编写软件的大语言模型相比,世界模型目前仍然显得十分稚嫩。
许多系统甚至还在努力学习如何抓起一个咖啡杯,或者在简单的玩具环境中完成导航。
“通用直觉”联合创始人皮姆·德维特(Pim de Witte)认为,其中一个重要原因在于:
现实世界远比语言复杂得多。
他说,文本实际上把现实世界四个维度的信息压缩成了一维。
而真实环境则充满噪声、连续变化且不断演化。
机器人不仅要面对不断变化的光照条件、移动中的物体,还必须处理自己每一个动作所带来的连锁影响。
17.
世界模型最大的难题:缺数据
德维特认为,还有另一个更加现实的问题。
世界模型需要的数据,本身就比文本更加复杂。
它需要大量关于动作与结果之间关系的数据。
例如:
机器人如何操作物体;
人类如何在真实空间中移动;
玩家如何在电子游戏中完成各种任务。
相比互联网文本,这类数据不仅数量极少,而且采集成本极高。
目前,研究人员大量利用YouTube视频作为训练素材。
然而,仅仅观看别人做事,并不等于亲自完成这些动作。
因此,他们仍然迫切需要更多来自真实交互的数据。
在通向通用人工智能的竞争中,价格低廉、数量庞大的文本数据,仍然让大语言模型占据明显优势。
第四章
杨立昆押注另一条路
18.
更丰富、更加稀缺的世界数据
杨立昆则把未来押在了更加丰富、但也更加稀缺的世界数据上。
他曾担任Meta首席人工智能科学家。
后来,当Meta逐渐减少机器人方向的投入,把重心转向大语言模型之后,他开始感到越来越不满足。
他说,当时意识到:
“我几乎可以弹一下手指,就筹到10亿美元。”
于是,他真的这样做了。
今年3月,在获得超过10亿美元资金支持之后,他正式发布了先进机器智能实验室(Advanced Machine Intelligence,AMI Labs)。
与前面提到依靠模拟世界学习的方法不同,AMI选择的是另一条路线——预测式世界模型。
也就是说,让人工智能把整个世界模型随身“带在脑子里”。
19.
JEPA:预测世界而非每个像素
AMI最核心的技术,是一系列名为联合嵌入预测架构(Joint-Embedding Predictive Architecture,JEPA)的算法。
与许多世界模型试图预测视频中每一个像素不同,JEPA预测的是未来状态的抽象表示。
杨立昆举例说:
开车时,人真正关心的是红绿灯究竟是红灯还是绿灯,而不是灯泡每一个像素具体长什么样。
因此,一个真正智能的系统,应该学会关注这些高层次的重要属性,同时过滤掉大量无关细节。
为了赋予人工智能预测未来的能力,研究人员首先利用数千小时YouTube视频训练JEPA,使其逐渐学会现实场景随时间如何演化。
随后,他们又将模型迁移到机器人系统中,让它学习预测不同动作之后,机器人手臂和各种物体将会发生怎样的变化。
20.
AI开始在“脑海”中推演未来
JEPA真正希望实现的,并不仅仅是让机器人对外界刺激作出条件反射式反应,而是让它具备规划能力。
例如,当系统希望机器人手臂最终拿起一个咖啡杯时,采用JEPA的智能体不会立刻执行动作。
相反,它会首先在自己的内部世界模型中模拟多种可能的动作路径,预测每一种方案可能产生的结果,然后再选择最合适的一种执行。
杨立昆认为,这是大语言模型无法做到的能力。
他说:
“你无法通过预测离散Token来建立这种行为模型。”
因此,他认为:
“你不可能依靠大语言模型完成这些事情。”
杨立昆设想,JEPA未来首先会应用于机器人控制,进入发电厂、航空航天、医疗等行业。
不过,他真正的目标远不止于此。
他说:
“最终目标,是构建具有通用智能的系统。”
第五章
世界模型会取代大语言模型吗?
21.
大语言模型远没走到尽头
并不是所有人都认同杨立昆的判断。
在Anthropic,研究人员几乎没有主动开发世界模型。
卡普兰表示,这一方面是商业上的选择。
Anthropic目前更专注于开发能够帮助用户完成编程、写作和办公工作的人工智能,而不是机器人。
但更深层的原因,在于他们依然相信:
今天的大语言模型,还有巨大的潜力尚未释放。
22.
为何大模型还不断出现新能力?
卡普兰认为,随着模型不断扩展,它们经常会突然表现出此前从未拥有的新能力。
这种现象被称为“涌现”(Emergence)。
过去几年,大语言模型陆续获得了许多小模型根本不具备的能力。
例如:
完成算术计算;
进行多步骤推理;
编写真正能够运行的软件。
这些能力并不是研究人员提前设计进去的。
很多时候,就连研究人员自己也无法预测,它们究竟会在什么时候突然出现。
在卡普兰看来,这说明:
智能本身,也许会随着模型规模扩大而自然产生,而不一定需要一种全新的体系结构。
因此,他并不认同“大语言模型只是会统计文本规律的鹦鹉”这种说法。
他认为,大语言模型内部其实已经建立了关于现实世界的表示。
虽然这种表示并非来自亲身体验,而是通过文字和图像中的大量规律间接形成。
否则,它们根本无法为人提供导航路线。
对于许多人提出的“没有身体,就不可能训练出通用人工智能”这一观点,卡普兰表示:
“我个人对此非常怀疑。”
23.
世界模型真比大语言模型更好吗?
德维特也承认,规模足够大的大语言模型,也许最终确实能够形成隐含的世界模型。
真正的问题在于:
代价究竟有多高?
在“通用直觉”纽约办公室里,杰利一边说,一边用手模拟擦桌子的动作。
聊天机器人当然能够描述如何擦干净一张桌子。
但真正完成这个动作时,需要知道:
应该施加多大压力;
当桌面上的碎屑不断移动时,如何实时调整动作;
每一次动作都会如何改变环境。
这些能力,仅凭文字几乎无法真正学会。
杰利说,这正体现了那句著名的话:
一张图片胜过一千个词。
而对于世界模型来说,可以进一步理解为:
真实世界的一次体验,可能胜过无数文字描述。
24.
下一代AI,或许不是非此即彼
究竟是继续扩展大语言模型,更有机会实现类人智能;还是世界模型最终能够胜出?
目前,没有人知道答案。
而且,这两条路线并不一定相互排斥。
德维特认为,未来完全可能把世界模型和大语言模型结合起来。
例如:
大语言模型负责处理语言任务,再调用世界模型完成空间推理;
世界模型负责理解现实环境,再调用大语言模型完成语言理解与表达。
事实上,杨立昆已经进行了类似尝试。
在他的实验中,一个JEPA模型与大语言模型协同工作后,已经能够回答视频中的人物下一步最可能做什么。
德维特还提出了一个更加大胆的设想。
未来,世界模型甚至可能把语言本身也当作现实世界的一部分进行学习。
它不再依赖互联网文本训练,而是像人类一样,通过视觉看到文字、通过听觉听见语言,在真实世界中逐渐学会阅读、写作和交流。
离开“通用直觉”办公室时,杰利递给记者一张印有公司Logo的贴纸。
这个标志看上去像一个倒过来的字母“A”。
杰利解释说,它也很像数学中表示“对于所有”(for all)的符号。
同时,如果仔细观察,还能够从里面辨认出“G-I”两个字母。
这个标志,也隐喻着这家公司真正追求的目标。 🅠
参考资料:
"As better chatbots get harder to build, AI turns to simulated worlds" by Matthew Hutson, Science, Published 25 Jun 2026 2:00 PM ET. doi: 10.1126/science.zqdexmk
你可能还想了解:



夜雨聆风