AI教父杨立昆:LLM走入死胡同,硅谷因为“羊群效应”陷入LLM军备竞赛,为什么离开Meta

👇关注公众号后设🌟标，掌握第一手AI新动态

本文内容整理自 AMI Labs 首席科学家杨立昆（Yann LeCun） 在 Unsupervised Learning: With Jacob Effron 频道的专访，首发于2026年5月15日。原始内容参考：https://www.youtube.com/watch?v=ngBraLDqzdI

内容提要：杨立昆在雅各布·埃弗伦专访中的深度对话

大语言模型（LLM）的局限性： LLM并非通往人类水平智能的终极路径。它们在处理文本等离散符号序列上表现出色，但因缺乏对物理世界的深刻理解，无法预判行为后果，导致其在现实世界的应用中存在本质上的不安全性。
世界模型（World Models）的必要性： 通用智能的核心在于具备“世界模型”。智能体必须能够预判行为后果并进行自主规划（通过搜索和优化），而非单纯地进行自回归预测。这是从简单直觉反应（系统一）向深思熟虑（系统二）进化、实现类人智能的关键。
联合嵌入预测架构（JEPA）： 相比生成式模型在像素级别进行预测的低效与“死胡同”，JEPA架构通过在抽象表征空间进行预测，避免了“表示坍缩”，被认为是构建真实世界物理理解的更优范式。
数据效率问题： 人类学习能力极强（如学习驾驶仅需20小时），而当前模型高度依赖模仿学习和海量数据。真正的AI突破应实现“零样本”学习或极低数据需求，而非通过合成数据无止境地堆砌计算量。
硅谷的从众效应： 行业内存在严重的“羊群效应”，各大科技公司过度沉迷于LLM规模扩张的军备竞赛，导致创新研究空间萎缩，甚至出现了类似“开源趋势减弱”的闭源垄断倾向。
AI主权与Tapestry愿景： 大多数国家不希望被美国或中国的AI模型“文化洗脑”，拥有AI主权已成为各国共识。Tapestry平台旨在通过分布式参数向量贡献与联邦学习机制，构建全球共享的开源基础模型，实现文化与价值体系的自主性。
AI安全观： 所谓“AI将统治世界”的末日论被严重夸大。真正的风险在于技术应用不当导致的不平等，以及缺乏明确目标函数约束下的系统行为失控。未来的安全应通过底层的“目标驱动”设计来实现，而非依赖外部的监管强制。

AMI Labs 首席科学家杨立昆（Yann LeCun）简介（补充）

Yann LeCun（杨立昆）是著名人工智能科学家、图灵奖得主，被称为“卷积神经网络之父”。他曾长期担任 Meta （Facebook AI Research, FAIR） 的首席AI科学家，主导了FAIR的辉煌研究时代。如今，他在独立运作的 AMI Labs 担任首席科学官，全身心专注于“世界模型”和 JEPA 架构的研究。他的终极目标是：让AI真正从现实世界中学习、理解和推理，彻底摆脱对纯语言数据的路径依赖。

内容简介

图灵奖得主、前Meta首席AI科学家杨立昆做客雅各布·埃弗伦（Jacob Effron）的播客。这场对话的核心聚焦于杨立昆极具颠覆性的反共识论断：尽管大语言模型（LLM）是极具商业价值的产品，但它们在通往人类水平智能的道路上已经走入死胡同。 核心原因在于，LLM无法预判自身行为的后果，无法进行长远规划，并且从根本上无法对混乱、高维的真实物理世界进行建模。

在访谈中，他详细拆解了自己提出的替代方案——JEPA（联合嵌入预测架构）。该架构通过学习抽象表征，而非生成低效的像素级预测来理解世界。他深刻解析了为什么这种方法对于机器人技术、工业应用，以及任何需要超越单纯“语言文字”层面运作的系统来说，都是不可或缺的。

此外，杨立昆还首次揭秘了他离开Meta背后的真实内幕（与外界传闻相反，他对Llama模型其实没有任何技术层面的参与）；分享了旨在打造主权开源AI的Tapestry项目的起源；阐述了为何他认为LLM存在本质上的不安全性；探讨了他在哪些核心理念上与图灵奖同侪辛顿（Hinton）和本希奥（Bengio）分道扬镳；并大胆预测：整个AI行业将在2027年初彻底醒悟，迎接这场范式的转变。

在整个访谈中，他坦诚地反思了大型科技巨头内部“基础研究与产品落地”之间的剧烈拉扯，以及他为何刻意将 AMI Labs 的总部设在巴黎，且坚决不拿一分钱的硅谷风投。

访谈全文

主持人： 您是人工智能教父之一。您如何看待目前人工智能的发展路径？

杨立昆： 五年内实现全球的彻底统治。实现突破性研究的最佳途径就是：招募最顶尖的人才，然后别去碍手碍脚。 原谅我爆粗口。

主持人： 您与另外两位共同获得了图灵奖。您的观点是从何时开始产生分歧的？在2023年，您是如何确定离开Meta的时机的？听起来您似乎在很长一段时间里都在思考这些问题。*[注：此段为播客开场的混剪片段]*

杨立昆： 外界对我的角色、我与FAIR（基础人工智能研究院）的关系，以及Meta内部是如何开展AI工作的，存在很大的误解。

主持人： 过去一年里，您在哪些观点上改变了想法？

主持人： Yann LeCun被誉为人工智能教父之一，他是该领域绝对的传奇人物，也是我长期钦佩的对象。能邀请他来到《无监督学习》(Unsupervised Learning) 节目，我感到非常荣幸。

他在很多方面一直是大语言模型（LLM）的怀疑论者。我们深入探讨了LLM能做什么、不能做什么、他所看到的局限性，以及他最终决定追求不同架构的原因。

我们还谈到了他在Meta的工作经历、他为建立FAIR所做出的贡献、过去几年的发展历程，以及最终是什么促使他的团队成员跳出原有框架，创立了Mistral AI。

我认为，了解Yann对于当前人工智能生态系统所发生的一切，以及基础研究与推动大语言模型发展之间的张力，还有他对整个领域未来走向的看法，是非常令人着迷的。

他是该领域的泰斗。创办这档播客时，我就希望能邀请到他这样的嘉宾，所以这真是一次难得的机会。我相信听众们会很喜欢这次谈话。废话少说，让我们欢迎Yann。

Yann，非常荣幸能邀请到您。您是人工智能教父之一。我记得多年前刚开始做这档播客时，就一直希望能邀请到像您这样的重量级嘉宾。

杨立昆： 我不太喜欢这个称呼，因为我住在新泽西州。当你在新泽西被称为“教父”时，那意思可就完全不一样了。

为什么大语言模型并非通往智能的路径

主持人： 非常有道理。您当初在所有人都不看好神经网络时选择押注于此，这本身就是一段传奇。而今天，您在某种程度上正以类似的方式，挑战当前备受推崇的大语言模型及主流的生成式架构。您最近还围绕这一主题成立了一个新团队。

我们今天的主旨是为听众带来关于AMI（高级机器智能）、您正在做的事情、您在Tapestry的一些工作，以及为什么您认为该领域在某些生成式模型上走错了方向。我们还想听听您对整个领域发展历程的见解，以及您在Meta的经历等等——这对于单期播客来说目标有点宏大。

我想从AMI开始，因为这个团队似乎最清晰地体现了您未来发展的技术构想。您最近启动了这项工作，专注于世界模型（World Models）和扩展您在Meta开创的JEPA架构。我很想请您谈谈该架构的起源，以及它在多大程度上受到了人类大脑运作方式的启发。

杨立昆： 首先，我想说大语言模型本身并没有错，它们是我们大家（包括我本人）都在使用的许多有用人工智能产品的基础。它们在各自擅长的领域表现出色。我只是想强调，它们并不是通往人类水平、类人智能，甚至是类动物智能的途径。这就是我的论点。我并不是说LLM毫无用处，我只是说它们并不是实现通用人工智能的方向。

主持人： 毕竟您也参与构建了一些最早期的主流开源模型。

杨立昆： 的确如此。那么，AMI到底是什么？AMI其实是高级机器智能（Advanced Machine Intelligence）的缩写。它的副标题或者说口号是：“服务于现实世界的人工智能”。目前人们所熟知的许多人工智能技术，擅长处理文本，无论是人类语言、计算机代码、数学公式，还是法律文书（这玩意儿勉强才算得上是人类语言）。

主持人： 不幸的是，人类语言在这些方面应用广泛。

杨立昆： 是的，令人遗憾。语言在某种程度上非常特殊，它特别适合近期极其成功的架构：大语言模型，即GPT风格的架构。

但现实世界呢？理解物理世界又该如何？事实证明，现实世界远比语言复杂得多，因为它是高维、连续、充满噪点且杂乱无章的；训练一个能够理解现实世界的系统，其难度要大得多。

这正是我们的目标，也是我职业生涯大部分时间一直在追求的。在过去五六年里，我一直在加速推进这项研究，并在近两年取得了显著进展。

围绕这项技术建立初创公司，全力推动其发展，在当时是顺理成章的。到了去年年底，情况已经很明朗，Meta并非实现这一特定目标的最佳场所，这也是为什么他们选择离开，并创立了Physical Intelligence（或其他AI实验室）。

主持人： 我觉得这是一个有趣的趋势，我们看到很多人离开大型公司或研究实验室，去追求他们所热衷的研究方向。您在FAIR工作期间，一定对此有着非常深刻的观察，尤其是这些公司在“鼓励探索多种研究方向”与“发现可行路径后，全力投入未来6到12个月的产品变现”之间，存在着某种张力。我很想听听您对此的看法以及对整个行业的观察。

杨立昆： 这是一个奇妙的权衡。实际上存在两种研究范式（Paradigms）。一种是鼓励大量的探索性研究和多样化的研究方向；而当某项技术似乎可行时，你就必须全力投入。这就不再是纯粹的研究了——虽然从事该工作的人员可能仍被称为研究人员（至少媒体是这么叫的），但其实际性质已转向工程和产品开发。

这种情况在Meta发生过多次，因为很多项目都始于FAIR。2023年初就发生了这样的事情，当时FAIR开发的Llama 1表现出了巨大潜力。随后，Meta专门成立了一个组织——GenAI，旨在将其转化为实际应用，开发系列产品，并推出了Llama 2和Llama 3。然而，后续的进展略显令人失望。由于马克·扎克伯格不满意，他重启了整个组织架构，进行了重组，并招募了新员工。

过去一年里，Meta意识到公司已经落后了。这一认知促使他们的战略转向，努力追赶行业水平。这种转变的一个不幸后果是，许多探索性研究不再被优先考虑。这并没有影响到我当时的工作——JEPA和世界模型（World Models），因为马克本人、首席技术官安德鲁·博斯沃思（Andrew Bosworth）以及公司内许多其他人对这些项目确实感兴趣，并相信其长远影响。

尽管有这些支持，但公司的其他部门完全将重心放在了大语言模型上，这让他们清楚地认识到，Meta不再是推动他们特定项目（如机器人技术）的合适场所。随着研究开始取得良好成果，很明显，必须从纯研究转向实际的技术开发、扩展以及产品落地。

他们也意识到，这项研究的大多数应用场景可能超出了Meta的核心业务兴趣。这种技术（如机器人技术）的许多潜在应用场景其实存在于其他领域，例如制造业。

AMI与世界模型

主持人： 显然，你目前正致力于探索世界模型(World Models)及其更广阔的领域。我们也看到，还有一些人正从生成式方法(generative approach)的角度切入世界模型。比如谷歌团队研发的 Genie 和各种视频模型，有在机器人领域构建 VLA（视觉-语言-动作模型）的研究者，还有像李飞飞那样致力于 3D 空间模型的研究者。当你回顾那些让你对 JEPA 模型充满信心的研究依据，并将它们与生成式方法的研究成果进行对比时，你认为目前的这些架构和方法孰优孰劣？我们在评估上处于什么阶段？

杨立昆： 世界模型(World Models)正迅速成为当下的一个热门词汇，在学术界无疑如此，在工业界某种程度上也是。

如果要划分的话，目前有两大流派。我不想谈论 VLA，因为大家现在已经看得很清楚，VLA 并没有什么前途，它真的行不通。VLA（视觉-语言-动作模型）本质上是利用大型语言模型(LLM)技术来训练系统，从而生成控制机器人的动作。也就是说，输入视觉和语言信息，输出动作（或许还有语言）。这在很大程度上已经被视为一种失败，因为它不够可靠，且需要极其庞大的训练数据。

接下来我们谈谈世界模型。什么是世界模型？从宏观层面来看，世界模型是赋予智能体系统(agentic system)预判自身行为后果能力的核心机制。在我看来，无法预判自身行为后果的系统，根本称不上是真正的智能体。 这是不可或缺的基础。我们在现实世界中行动时，正是凭借着这种预判能力；如果不计后果地盲目行动，必将面临巨大的风险，甚至会被人认为是愚不可及。在当今的国际政坛上，我们就能看到大量反面教材，很多人完全丧失了预判其行为后果的能力。

这就是世界模型的真谛：预见自身行为的后果。 掌握了这种能力，你就能通过规划一系列动作来完成任务或实现目标。这个过程是通过搜索与优化(search and optimization)来进行规划和推理的。你不能像 VLA 那样，以自回归(autoregressively)的方式逐一预测下一个动作；相反，你需要全局搜索出一条能够达成既定目标的最佳动作序列。

这一蓝图与目前 LLM 所能做到的完全不同。LLM 既不具备预判行为后果的能力，也没有任何规划能力，因为它们的推理仅仅是通过预测下一个 token（标记），对吧？它不是通过搜索来完成的。因此，在这里我们明确了智能行为不可或缺的两个核心特征：第一，预判行为后果的能力；第二，通过搜索优化进行规划的能力——即找到能够产生正确结果的优质动作序列。

此外还有第三个特征：你究竟该如何预测这些行为的后果。想象一下，我面前放着一个水瓶——我知道有些人只是在听音频，看不到画面——所以我描述一下：我面前有一个拧开盖子的水瓶。如果我推它的底部，它会在桌面上滑动；如果我推它的顶部，它很可能会翻倒。

我们无法精确预测瓶子究竟会如何倒下、朝哪个方向倒下。我们也无法精确预测它将如何滑动、水会怎么洒出来，或者桌面是否朝某个方向倾斜导致水流向另一边。我们绝不可能在像素级别(pixel level)上预测这些细节。因此，我们大脑中的心智模型(mental model)确实在进行预测，但那是在抽象表征层面(abstract level of representation)进行的。

JEPA 架构解析

主持人： 所以，在研发这套架构时，是不是很大程度上受到了人类大脑的启发？我的意思是，显然你刚才阐述的逻辑，正是我们人类日常的行事方式。

杨立昆： 没错，或者说至少受到了认知科学的启发。不过，能否将这些理论真正转化为神经网络架构，这中间还存在着巨大的鸿沟。但毫无疑问，认知科学是重要的动机之一。正如心理学中所谓的“系统二(System Two)”：当你在深思熟虑、谨慎行事时，你会想象并预判自己行为的后果，然后据此进行规划；这与凭直觉和本能做出反应的“系统一(System One)”截然相反。

所以，这其中确实有理论启发，但同时也有大量的经验证据表明：我们不应该去生成像素。

长久以来，我一直对“通过预测来学习世界模型”这一课题充满热情。大约五年前，我突然有了一个顿悟：所有在学习图像和视频表征方面取得巨大成功的架构，无一例外都是非生成式的(non-generative)；而所有生成式的架构，基本上都以失败告终。

变分自编码器(VAE)，或者说更广义上的自编码器，是学习输入数据抽象表征的一种常规思路。你将一张图像输入神经网络，然后训练模型在输出端重构这个输入。然而，如果你在大型神经网络上这么做，模型根本学不到任何有价值的东西；它仅仅是在学习恒等映射(identity function)，既毫无意义又效率低下。即便是在训练 VAE 或稀疏自编码器(sparse autoencoder)来学习图像表征时，得到的结果也鲜有亮眼之处。

另一类技术则衍生自所谓的“去噪自编码器(denoising autoencoder)”。掩码自编码器(Masked autoencoders)正是其变体之一，而 NLP 领域的 BERT 也是基于同等原理。在这种方法中，你先对图像进行某种形式的破坏（如遮挡），然后训练大型神经网络来恢复原始图像。FAIR（Meta 基础人工智能研究团队）曾为此开展过一个名为 MAE 的庞大项目，但结果令人大失所望：它消耗了极其庞大的算力，却未能带来真正令人满意的效果。

与此同时，巴黎和纽约的研究人员正在探索使用非生成式的“联合嵌入架构(joint embedding architectures)”。在这种方法中，同样是对图像进行某种破坏，但接下来，你需要将原始版本和破坏后的版本分别输入编码器，然后尝试通过破坏后的图像表征来预测原始图像的表征。这就是 JEPA（联合嵌入预测架构，Joint Embedding Predictive Architecture）。你拥有两个编码器，一个处理某种观察结果，另一个处理不同的观察结果，然后利用一个预测器(predictor)，根据后者的表征来推算前者的表征。

事实证明，这些技术在处理图像和视频表征时效果要好得多。典型代表包括 DINO 系列（DINOv1、v2、v3），这是巴黎 FAIR 团队仍在持续推进的项目；此外还有 iJEPA 和 VJEPA 等项目。在此之前，还有像 SimCLR、MoCo 以及其他众多技术，主要出自 Meta 及各大研究团队之手。最终，这些研究共同证明了一个事实：相比于预测像素，这种方式是学习图像表征更优的路径。 这个结论不仅让我顿悟，也让业内许多研究者达成了共识。

当今机器人模型面临的困境

大家都意识到，这才是正确的发展方向，而试图预测像素在某种程度上注定是一场徒劳。

主持人： 感觉现在一些大模型公司发布的各类机器人演示越来越令人印象深刻了。它们似乎展现出了类似规划和推理的能力，即便机器人从未见过某个房间或某个特定的任务场景，依然能够顺利执行任务。我想问问，对于那些看到这些演示，感觉我们借助生成式方法正迈向实质性突破的听众，您会想对他们说些什么？

杨立昆： 的确有实质性进展，其中一些演示也确实非常惊艳。然而，它们主要依赖海量数据进行训练，这些数据要么来自遥操作（Teleoperation），要么来自人类使用形似夹爪的手持设备所记录的动作。你可以通过这些方式收集数据，或者干脆追踪人的手和手指动作，然后将其转化为机器人的控制指令。

这些系统主要通过模仿学习（Imitation Learning）进行训练，通常还会辅以少量的强化学习（Reinforcement Learning）在模拟环境中进行微调（Fine-tuning）。这种方法的弊端在于，需要海量数据来训练系统，导致成本异常高昂。不仅如此，它还非常脆弱（Brittle）：你希望机器人解决每一个特定的任务，都必须为其收集庞大的数据集。

相比之下，如果系统拥有能够预测动作结果的“世界模型（World Model）”，它就能在无需针对特定任务进行专门训练的情况下，自主规划出解决新任务的行动方案。因此，基于世界模型的系统能够实现更高程度的泛化（Generalization），只需远少于模仿学习和微调所需的数据量，就能覆盖更广泛的任务领域。

主持人： 毫无疑问，那些方法确实需要更多的数据。我想，泛化（Generalization）能力确实是个关键问题，对吧？有些人已经证明，在任务 A 上表现越好，也有助于完成任务 B。但很明显，这仍然是现有架构面临的一个巨大且尚未解决的问题。

杨立昆： 我的意思是，任务之间存在协同效应。无论你使用什么技术，系统训练完成的任务越多，它能够以少量数据快速习得新任务的能力就越强。但对于世界模型，我们的终极期望是让系统实现“零样本（Zero-shot）”解决新任务——这正是人类完全能够做到的事，许多动物也是如此。这就是我们的希望所在：用极少量的训练数据，甚至完全不需要训练数据，仅加上一点强化学习风格的微调，就能解决无数的新问题。

举个简单的例子：为什么一个 17 岁的年轻人只用一二十个小时就能学会开车，而我们即使喂给 AI 数百万小时的人类驾驶数据，却依然做不出 L5 级别的自动驾驶？这恰恰说明，仅仅靠模仿学习，连自动驾驶这道坎都迈不过去。

主持人： 是的，这将会是一场路线竞赛：一边是通过耗费大量时间和数据来逐渐培养这些能力，另一边则是寄希望于一种更优的架构。我觉得现在业界有一种美好的愿景，就是利用视频模型（Video Models）生成海量的合成数据（Synthetic Data）用于模拟。即便模型并不完美，但从物理引擎的角度来看，它对于改进机器人技术和理解底层物理世界已经足够有帮助了。您如何看待这些方法？显然 NVIDIA 在这方面投入了重注，Google 似乎也在走这条路。

杨立昆： 我还是要重复那个问题：为什么一个 17 岁的年轻人不需要几百万小时的演示，也不需要合成数据，就能在 20 小时内学会开车？我想要的就是一个能以同样效率学习的系统。如果我们能破解人类如此高效学习的密码，就不再需要什么生成式数据了。我们或许还需要在模拟环境中训练系统，但绝不需要像当前系统那样耗费如此巨大的时间去不断试错。这归根结底是一个数据效率（Data Efficiency）的问题。

硅谷的羊群效应（Silicon Valley Herd Behavior）

主持人： 我曾在播客中采访过 Jerry Tworek，他曾在 OpenAI 工作，后来独立出来（spun out）创办了自己的实验室。你能从他身上感受到一种类似的拉扯：他或许也认同，如果按照目前的路线继续扩展强化学习（RL）的规模，你确实能不断取得惊人的成果。但他内心深处觉得，天哪，一定存在某种更高效的方法。这种张力非常有趣：试想如果你是 OpenAI，且明知道只要继续堆算力、扩规模（Scaling），模型就会越来越好，那么单纯从商业激励的角度来看，你其实没太大动力去追求什么数据效率。

杨立昆： 没错。其他公司同样没有动力去另辟蹊径，因为大家都在竞相追赶同一目标，谁也承受不起掉队的代价。所以他们都在做如出一辙的事情。尤其是硅谷，普遍存在一种“羊群效应”（Herd Behavior），所有人都在挖同一条战壕。这也是为什么，我特意将 AI 实验室（AI Labs）的总部设立在了巴黎。

而美国办公室则设在纽约，坚决不选硅谷。

主持人： 这真的很有趣，因为它点出了当今整个 AI 生态中普遍存在的一种张力。你可以想象反方的态度：“当然，或许确实存在数据效率更高的方法，但谁在乎呢？只要继续把现有的路线做大（Scaling），我们就能源源不断地得到更好的结果。” 不过，从这些新模型能够解锁的全新能力，以及作为一名研究人员不断探索新知所带来的纯粹乐趣来看，我完全理解为什么这些新的架构依然具有如此强大的吸引力。

杨立昆： 这确实是一场押注。但我们底气十足，因为我们已经拿出了实际成果。

主持人： 是的。那么，当您构想这项 AI 技术首批落地的应用场景时，最让您感到兴奋的是什么？您认为这项技术最终会走向何方？

杨立昆： 我的答案是“面向真实世界的 AI（AI for the real world）”。比如说，你的家用机器人在哪里？你的 L5 级别自动驾驶汽车又在哪里？

主持人： 嗯。那这正是我关心的：我究竟什么时候才能拥有一台家用机器人？我对此非常期待。

杨立昆： 这恐怕还得等上好几年。尽管现在有一大批公司在制造机器人，但说实话，没有一家公司真正清楚该如何让这些机器人变得足够聪明，从而真正派上用场。

主持人： 或者说，聪明到让你放心让它在家里陪着婴儿。

杨立昆： 显然不是那样。但即便是对于相对狭窄的制造任务来说，除了通过模仿学习(Imitation Learning)来处理少量任务外，目前还没有人真正知道如何可靠地实现自动化。那么，我们该如何让这些技术变得实用呢？这是一个相对长期的目标。从短期来看，工业界有海量的应用场景，需要一个智能系统具备预测能力——即预测“如果我在这个复杂系统中改变某个控制变量，会发生什么”。无论它是喷气式发动机、化工厂、发电厂、生产线、病人，甚至是一个人体细胞——这些系统都极其复杂，你无法仅用少数几个方程来为它们的行为建模。因此，传统的建模方法对它们并不适用。

为了解决这个问题，你需要训练一个神经网络或深度学习系统，根据数据来模拟这些系统的动态。你最终得到的是该过程或系统的现象学模型(Phenomenological Model)。

如果这个模型是动作条件化的(Action-Conditioned)，你实际上就获得了该系统的一个世界模型(World Model)，它能让你为了任何目的对其进行最优控制。我认为这在工业领域的应用潜力是不可思议的。

主持人： 你认为未来几年我们在 JEPA 模型上会取得怎样的进展？有什么标志性的里程碑吗？或者你如何看待它的发展路径？

杨立昆： 几年这个时间跨度有点短。如果是五年左右的话，基本上就是彻底“征服世界”。

主持人： 所以，未来五年的路径就是通往“征服世界”。

杨立昆： 这显然是个玩笑，不过这是引用林纳斯·托瓦兹(Linus Torvalds)的名言。当人们问他开发 Linux 的目标是什么时，他说，“彻底征服世界”。实际上他确实做到了。毫不夸张地说，第一近似值就是全世界所有的电脑都在运行 Linux，对吧？所以这只是个玩笑。但归根结底，我认为这就是未来智能系统的蓝图。大语言模型(LLM)仍将占有一席之地，基本作为一种语言交互接口存在。但我们正在设计的是真正具备思考能力的系统。它们最初或许不能听也不会说，但它们能够思考。在此基础上，你完全可以再把对话和倾听的能力叠加进去。

主持人： 我相信你和团队正迫切地想要获得这种构想的早期验证。显然，你们在现有的工作中已经取得了一些成果。在通往五年后“征服世界”的道路上，你如何规划那些能向外界展示的中间过渡阶段？

杨立昆： 我认为在一年左右的时间内，我们将拥有一套通用的方法论，能够在非常广泛的模态上训练分层世界模型(Hierarchical World Models)。我们知道，利用现有技术在视频领域已经能做得不错，尽管我们并不完全满意，因为它们还存在一些短板。然而，我们已经实现了一个小规模的方法论演示，我们坚信这才是我们真正想要的方向。

我们的目标是扩展这套方法论，在从工业合作伙伴那里获取的其他类型数据集上，达到与当前技术（这些技术在视频上的表现可能差强人意）同等甚至更好的性能水平。我们将证明自己能够训练出世界模型(World Models)——也许是动作条件化(Action-Conditioned)的模型——从而让我们能够针对许多不同的用例进行规划。

这些用例将横跨多个领域，包括机器人、工业过程控制，考虑到我们在该领域的合作伙伴，甚至可能包括医疗保健。我们预计在 1 年到 18 个月内实现这一目标。随后，我们将推动这套方法论和模型与我们的合作伙伴（其中一些已经是我们公司的投资者）一起落地到现实世界的应用中。通过这些合作，我们将为构建一个具有一定通用性的世界模型积累宝贵经验。

主持人： 你之前显然有过这种经历：在神经网络上进行极其反直觉的押注，并在历史上被证明是无比正确的。如果你现在与人工智能各个前沿领域的多数人交流，他们可能依然会认为你现在的这个押注是反直觉的。当你思考这个赌注时，你认为在什么时间框架内，人们会彻底看清“这个方向才是对的”？

杨立昆： 我认为这可能会比预期的更快发生，因为你已经看到“世界模型”正在成为一个流行热词，对吧？至少在研究层面是这样，而且它正开始向工业界渗透。

许多人已经意识到，视觉-语言-动作模型(VLA)的表现非常糟糕，而大语言模型(LLM)根本无法处理真实的物理世界数据。工业界——尤其在用户端——已经深刻意识到了这一点。鉴于机器人产业的重要性，许多人都在绞尽脑汁，思考如何实现目标并让这些机器人真正发挥作用。

我认为，“我们需要一场范式转变”的觉醒正在此时此刻发生，到 2027 年初，这一点对所有人来说都将是显而易见的。当然，这并不意味着到那时我们就会拥有完美的解决方案；我们希望能有，但仍需拭目以待。

Tapestry：为世界其余地区打造的主权 AI

主持人： 我们把话题切换到大语言模型(LLM)领域，你提到了正在开展的 Tapestry 项目，我想这对我们的听众来说会非常有趣。能稍微谈谈这个项目吗？

杨立昆： 好的，这个项目与人工智能实验室(AI Labs)的工作有些正交（互不重叠）。

主持人： 是啊，好像原先的工作还不足以让你忙得团团转似的。

杨立昆： 这是我过去三年左右一直在构思的一个想法。事实是，人们正越来越多地使用 AI 助手来处理各种事务；随着人们习惯直接向他们偏好的 AI 助手提问，你会看到传统搜索引擎的使用率正在下降。

如果 Meta 和其他公司正在推进的计划——比如开发智能眼镜等智能设备——得以实现，你基本上就会通过眼镜或其他智能设备与你的 AI 助手进行语音交流。结果就是，你所有的信息摄取都将由 AI 助手来中介和调配。

如果你居住在美国或中国以外的地区，而你的 AI 助手却是在加利福尼亚、北京、上海或深圳开发的，这可能对你并不理想。你所说的语言，可能并未被这些系统充分训练过；你所属的文化，可能并不被硅谷或中国的开发者所深谙，因此在互联网上公开的训练数据中也没有得到充分的体现。

此外，你的价值体系可能与那些构建模型的人截然不同；更不用说，你那鲜明的政治观点，也绝不是西海岸科技公司或中国企业提供的少数几个 AI 助手所能代表的。那么，出路何在？你该如何去服务印度的一位农民，亦或是法国或德国的一位哲学家？你需要的，是一个平台。

这个平台本质上是一个开源且免费的基础模型(Foundation Model)——即大语言模型(LLM)的形态。任何人都可以对其进行微调，以迎合讲特定语言、拥有特定文化，或具备特定价值体系、政治倾向、信仰的人群利益。因此，你真正需要的是极为多样化的 AI 助手生态。

世界上有许多既非美国也非中国的国家，它们绝对渴望在 AI 领域拥有一定程度的主权(Sovereignty)——这不仅是为了本国产业，更是为了本国公民。实际上，他们绝不希望自己的公民被中国或加州开发出来的模型“洗脑”。

所以，他们渴望主权。但你如何获得主权呢？要想让这样一个开放平台达到技术的最前沿，唯一的途径就是用比那些私有闭源系统更多、质量更高的数据来训练它。如果你去和印度、法国、越南、摩洛哥、瑞士的人交谈……

……以及韩国、日本、哈萨克斯坦的人交谈，你会发现大家从根本上都渴望拥有主权。你可以告诉他们，你们完全可以在本地训练自己的模型，不必共享你们的数据。这就是 Tapestry 项目的文化内涵所在。你将拥有一批遍布全球的 Tapestry 国际贡献者，他们共同参与训练一个全球性模型。可以说，这个模型将构成一个汇集全人类知识与文化的庞大存储库。

这些贡献者会投入数据和计算资源，但他们完全保留对自身数据的控制权。他们不需要与其他贡献者共享底层数据，他们贡献的仅仅是参数向量。因此，这就像是一种联邦学习(Federated Learning)机制：你有多个数据中心，它们从一个全球共识模型中获取参数向量。你可以把它想象成所有贡献者参数向量的平均值。因此，所有贡献者会定期向系统同步他们更新后的参数向量。

大家或许可以通过一个中央服务器交流：“这是我的参数向量(parameter vector)，你的是什么？”就像这样交换参数向量。基本上，一个本地节点在更新自己的参数向量时，也会尽量使其接近全局共识向量(global consensus vector)。随着训练的推进，所有这些参数向量本质上都会收敛到一个共识模型(consensus model)——这仿佛是一座全人类知识的宝库。最终，你就得到了一个开源模型，它的强大程度毫不亚于在全世界所有数据上训练出来的模型。

然后，你可以为了自己的目的对其进行微调(fine-tune)，融入你自己的政治、文化和语言偏好，或者任何你关注的兴趣点。

我认为这是一种必然趋势，因为除了中美之外，大多数国家都希望拥有AI主权(AI sovereignty)；而且人工智能正迅速演变为一种平台，平台天生就有走向开源的倾向。

Linux 的发展就是如此，互联网和无线网络的软件基础设施也是如此。它们全都是开源的。虽然最初它们都是专有技术(proprietary)，但那些封闭系统最终都被彻底淘汰了。

主持人： 这确实是一个巧妙的方法，能绕过目前看似开源逐渐式微的趋势。显然，很多人一直担心，随着闭源模型变得越来越强大，它们会被藏着掖着，被用来训练下一代模型；这会形成一种闭源模型的“逃逸场景(escape scenario)”，导致它们在性能上将开源模型远远甩在身后。

杨立昆： 还记得 1996 年互联网基础设施的巨头是谁吗？Sun Microsystems、HP、Dell 以及其他几家。

当时 Sun Microsystems 在向你兜售绑定了专有硬件的 Solaris 系统，HP 在卖 HP-UX。他们宣称 Unix 比 Windows 可靠得多，认为你不可能在 Windows 上运行 Web 服务器。

Dell 当时用的是 Windows NT，但现在谁还在用 Windows NT 跑 Web 服务器呢？

所有这些专有系统最终都被 Linux 彻底横扫。整个互联网都运行在 Linux 上。即使是 Azure 也是如此，连微软自己都在运行 Linux。

OpenAI 就是下一个 Sun Microsystems

从根本上说，今天的 OpenAI、Anthropic 等公司，就是昨日的 Sun Microsystems 和 HP-UX。

主持人： 没错，我想这背后显然隐含了你的一个观点，即这些模型的能力是有局限的，它们只能达到一定的高度，因此随着时间的推移，开源社区必定有能力迎头赶上。

杨立昆： 他们的数据已经耗尽了。公开可用的文本数据已经被消耗殆尽，没有更多的数据了。所以这些公司现在只能去购买商业版权数据的许可，或者使用合成数据(synthetic data)来进行训练。

主持人： 我很好奇，因为在这些大规模预训练(pre-training)之后，他们过去几年确实推动并取得了一些令人惊叹的成果。比如解答出 IMO（国际数学奥林匹克）金牌级别的题目，各项任务基准(benchmarks)测试的分数也一直在不断攀升。

杨立昆： 这非常有意思。现在思考一下数学和代码这两个领域。在这两个领域中，语言本身就是推理的载体(substrate of reasoning)。虽然它不是推理的唯一载体，但在数学中，你在纸上进行的很多形式化推导（而非直觉性的思考），其实都涉及对语言的操作。

大语言模型(LLM)在这方面如鱼得水。证明定理及类似的任务正是大语言模型的强项。

然而，在提出好的概念、定义等创造性工作方面，它们并不擅长。它们更像是：“这有一个问题，去解决它。”它们只是解题者。但数学不仅仅是解题，大部分数学工作其实是一种创造性行为，而这恰恰是这些系统无法完成的。

代码领域同样如此。大语言模型是优秀的程序员，但它们不是软件架构师，更不是计算机科学家。它们只能替我们编写代码。

所以，它们还没有发展到可以完全取代人类的地步。它们改变了人类的世界，让人类在抽象层级(abstraction hierarchy)上跃升了一个台阶：我们的角色变成了决定要去构建什么，而在具体的构建过程中，则可以寻求大语言模型的帮助。

但最关键的一点是：大语言模型之所以特别成功，仅仅是因为在这些领域中，语言本身就是推理的载体，除此以外别无其他。

主持人： 没错。那大语言模型需要做到什么，才能让你改变这一看法呢？

杨立昆： 我指的是像零样本智能体系统(zero-shot agentic system)那样的东西。你有一个智能体系统，给它一个全新的问题，它之前没有被训练过解决这个特定的问题，也没有预设的脚本。它能完成这个它从未被训练过的任务吗？

除非这个系统具备预测自身行动后果的能力，并能将其用于规划(planning)，否则它是做不到的。单靠一个大语言模型绝对行不通，你可能需要一个大幅增强的、具备搜索和规划能力的大语言模型才行。

目前，擅长处理数学和代码的大语言模型实际上正在应用这种机制。它们会去搜索能够完成特定任务的 Token 序列，并且能够运行代码或验证证明是否正确。因此，你拥有了一种机制来检验生成的内容是否正确。

但这绝不是一种高效的规划方式。而且它仅适用于那些能够直接在 Token 空间(token space)中执行此类搜索的领域。而我所说的 JEPA（联合嵌入预测架构），其核心理念是：你不再局限于 Token 空间里进行搜索，而是在抽象思维空间(abstract thought space)中进行规划。

主持人： 我相信有些听众可能会想，即使这种方式效率不高，但只要它行得通，而且能在 Token 空间内解决问题，它依然能撬动经济领域的巨大价值。

杨立昆： 如果它能解决问题，那当然没问题。用大语言模型去处理它们擅长的事情并没有错。但这并不是一条通往人类级别智能(human-level AI)的路径。你会错失一块巨大的……

主持人： 听起来你似乎在说，它在成为软件架构师之前就会触碰到天花板，但我相信它并不会完全停滞不前。

杨立昆： 只是它在部署上的适用性会受到限制，要在越来越多的大规模用例中部署它会变得极其困难。因为针对每一个具体用例，你都必须收集海量的训练数据。本质上，除非这些系统具备预测自身行为后果的能力——这意味着它们必须建立显式的世界模型(explicit world models)——否则你根本无法让它们变得完全可靠，无法根除幻觉或危险行为等问题。

为什么 Yann 的观点与 Hinton 和 Bengio 分道扬镳

主持人： 我猜你并不看好它们能达到100%的准确率，也不看好它们在不同任务上的泛化能力（Generalization）。我觉得这个领域的发展轨迹有一点非常有趣：你和另外两位共同获得了图灵奖（Turing Award），但我感觉随着时间的推移，他们似乎越来越笃信大语言模型（LLM）的强大力量，或是其潜在的威胁与安全风险。我很想知道，你们的观点是从什么时候开始产生分歧的？

杨立昆： 在2023年。

主持人： 在你看来，是什么促使了这种分歧？

杨立昆： 我并没有改变想法，是他们改变了。时间点基本就在GPT-4发布的时候。我的意思是，杰夫（Geoff Hinton）之前和这些毫无交集；他从未真正对大语言模型产生过兴趣。

2023年GPT-4问世时，他接触到了它，然后基本可以说是顿悟了。他说：“天哪，这些系统已经非常接近人类水平的智能，它们甚至可能具备主观体验。”

他做了一个简单的计算：“人类大脑皮层大约有160亿个神经元。如果你想实现类似反向传播（Backpropagation）的功能——当然，大脑并不直接执行反向传播——但如果你想做类似反向传播，或者是针对目标函数（Objective Function）的某种梯度估计（Gradient Estimation），你可能需要由几个神经元组成的网络，来重现神经网络中一个虚拟神经元的功能。”

于是他得出结论：“假设你需要一个由10个真实神经元组成的回路，才能重现一个反向传播神经元的功能。”

那么突然之间，你的大脑皮层实际上只相当于16亿个反向传播神经元。天哪，GPT-4已经非常接近这个规模了。所以，也许它有这么聪明，它将会变得和人类一样聪明。但我完全不相信这种说法。

这有点像是杰夫在借此表态：“好吧，基本上我可以退休并宣布胜利了。我毕生都在寻找大脑皮层的学习算法。也许我没能发现它的真面目，但反向传播似乎是个很好的替代品。它效果极佳，也许这就是我们需要的一切。因此，我可以退休了，去环游世界，到处发表演讲，探讨人工智能的前景与危险。”我认为这基本上就是他思想轨迹的演变。

现在，他对潜在危险的谈论比一两年前少多了。他有些意识到，这也许只是设计真正智能系统的一条路径而已。首先，他意识到当前的大语言模型并没有那么聪明。其次，在实现类人智能之前，我们可能还需要几次概念性的突破。第三，那些真正智能系统的蓝图将与大语言模型截然不同，而且我们很可能会找到使其变得可控的方法。这些话我已经说了好几年了，但他最近才意识到这一点。

约书亚（Yoshua Bengio）的情况也类似。我认为他们两人真正担心的是，我们的社会和政治体系是否有能力确保人工智能的利益最大化；确保AI不会仅仅让少数富人敛财、变得更富并加剧不平等；以及确保它不会因为被恶意使用而引发重大灾难。这并不是那种“AI统治世界”的末日论（Doomer Scenario），而更多是关于恶意的使用者。

大语言模型本质上是不安全的

主持人： 考虑到当今的大语言模型，被恶意使用似乎确实有可能。

杨立昆： 这确实是一种危险，但我不认为它像某些人声称的那样具有末日毁灭性。绝对不像Anthropic公司渲染得那么可怕，他们甚至试图以此恐吓政府、游说政府去监管AI。我完全不认同这种做法。

主持人： 他们看起来是真心相信这一点的。

杨立昆： 我认为他们确实相信，但同时我也觉得，他们去相信这一点并试图给公众和政府“洗脑”、让大家觉得他们的系统很危险，背后有着很好的商业动机（Commercial Reasons）。

主持人： 听起来对于其他新架构，尽管你可能对大语言模型作为万物的终极形态持看跌（Bearish）态度，但你对这些新架构也有着相当宏大的时间表。所以，你似乎并不认为我们距离实现极其强大的能力还有多遥远。我想问的是，如果这些突破最终来自于新架构，你如何看待其安全性？这是否能让我们高枕无忧？

杨立昆： 我要说一句可能又会引起争议的话。当然，我在Meta的一些同事并不喜欢我这么说：我认为大语言模型本质上是不安全的。我不认为它们能变得既可靠又安全。 它们无法实现可靠，因为你无法阻止它们产生幻觉（Hallucination）。如果它们作为智能体（Agentic）去执行任务，你无法保证它们不会采取连它们自己都无法预测后果的行动，而且……

主持人： 我的意思是，考虑到你对可靠性的担忧，它们能完成长达15小时的编程测试，这让你感到惊讶吗？

杨立昆： 嗯，编程这种任务，你实际上可以去验证生成的代码是否符合你的规范要求。但并非世间万物都是编程。

而且，现实中已经出现了编程智能体（Coding Agents）清空你硬盘的例子，对吧？或者干出一些蠢事，导致你损失大量金钱、数据等等。

因此，我认为当前形式的大语言模型本质上是不安全的，因为它们无法预测自身行为的后果。 它们完成任务的方式，完全受限于它们的训练过程。你给它们一个提示词（Prompt）。

然后它们就会去执行与该提示词对应的任务，但其完成程度仅仅取决于训练过程是否让它们条件反射般地做出了正确的响应。这里面没有任何硬连线（Hardwired）的底层约束去强制它们完成任务，并预测任务会被妥善执行。

主持人： 是的，大家熟知的一个例子是，在早期的时候，如果你问它们一个问题，它们只会不断地反问你同样的问题。

杨立昆： 又或者说，它们根本没有常识（Common Sense）。大约一个月前流传着这样一个笑话：“我需要洗车，洗车店离我家只有100码。我应该走着去吗？”大概两周前我又测试了一下。除了Gemini，所有的模型都回答：“是的，你应该走着去。”

主持人： 所以它们是在用了你之前做过那次演讲的视频进行训练吗？

杨立昆： 那不是我的视频，因为这个笑话不是我想出来的。不管是谁想出来的吧。确实有这么几次，我公开说过“大语言模型做不到这件事”，然后六个月后它们居然就能做到了。原因很简单：一旦人们看了我指出大语言模型缺陷的播客，他们肯定会立刻把这个问题输入到ChatGPT里。于是这就成了训练集的一部分，下一个版本的微调集（Fine-tuning Set）里就包含了这个内容。它当然就能回答这个问题了，但这绝对不是因为它们突然开窍变聪明了，仅仅是因为它们被明确喂养过这个问题。

所以，大语言模型本质上是不安全的。我不认为在目前的范式（Paradigm）下有任何修补的可能。

我一直提倡的是一种基于“目标驱动AI（Objective-Driven AI）”的架构。简单来说，你给AI系统设定一个目标，即完成一项特定的任务。系统如何知道自己能完成这个任务呢？因为它拥有一个世界模型（World Model），它可以预测自己想象中采取的一系列行动所产生的结果。如果这个结果满足了一个……

满足了一个成本函数（Cost Function），而这个函数精确描述了任务完成或未完成的程度。那么，如果这个系统是通过优化（Optimization）来运作的，它就会在自己的世界模型中，寻找一系列能够完成任务、且使成本最小化的行动。除了达成这个目标，它什么也做不了。

当然，在这个过程中依然有很多环节可能会出错。特别是成本函数可能不准确。你以为你设定的成本函数正在准确衡量任务的完成度，但实际上可能存在偏差。此外，模型本身也可能不准确，这意味着系统做出的预测是错的，它对自己行为后果的预判偏离了事实。因此，系统依然会犯错，但它在某种程度上拥有了预测行为后果的能力。我认为，对于任何智能体系统来说，预见行为后果的能力是不可或缺的。

现在，你可以给这个系统添加的，不仅仅是确保任务完成的成本函数，还可以添加一系列其他的目标函数，甚至是安全约束（Safety Constraints）。例如，这些约束可以明确规定：系统在执行任务的过程中绝不能伤害任何人。你无法在一个抽象的层面上泛泛而谈，但你可以设定许多底层的目标函数。当这些底层函数组合在一起时，就能从根本上保证系统不会具有危险性。因为在架构设计上，系统天然无法违背这些约束条件；它必须严格满足它们。

大语言模型（LLM）的情况则全然不同。大模型总是存在“失控”的可能。由于训练误差和测试误差之间存在天然鸿沟，无论模型多强大，总会有一段提示词（Prompt）能让它干出蠢事。

主持人： 让我们聚焦大语言模型（LLM）的一个特定应用领域。显然，你对医疗领域的AI应用充满热情，目前业界也已将大模型广泛应用于医疗的方方面面。我很好奇，在你看来，大模型在医疗领域的“能力边界”在哪里？对于那些大模型无能为力的场景，我们是否需要一种能更好地理解真实世界的模型？

杨立昆： 为特定患者设计慢性病甚至非慢性病的治疗方案时，往往无法直接套用过往的经验模板。然而，如果能建立一个准确反映患者生理动态的内部模型（Mental Model），也许就能设计出行之有效的疗法，让患者恢复健康。

我的意思是，我们甚至可以把单个细胞视作一个“患者”。想象一下，你该如何引导干细胞分化为能分泌胰岛素的胰岛β细胞（Pancreatic Beta Cell）？

以1型糖尿病患者为例，他们的免疫系统本质上在摧毁自身的β细胞。要应对这种自身免疫性疾病，就必须思考如何让身体源源不断地产生新的β细胞。你是否拥有一个精准的人体细胞模型，能够推算出将干细胞转化为β细胞所需的特定信号序列？

主持人： “大模型怀疑论者”和“大模型拥趸”往往在各说各话。但我认为这两种可能并存：大模型的强项在于，能将顶级医生和顶级医院的诊疗水平规模化（Scaling）推广到全球——如果真能做到，这无疑具有不可估量的影响力。而你所探讨的，则是很多前沿领域仍在攻克的难题：如何超越顶尖医生的水平？这又该如何实现？

杨立昆： 但这远不止是培养顶尖医生那么简单。大模型真正擅长的，主要是“反刍”书本上的既有知识。如果医学仅仅是积累书本上的陈述性知识（Declarative Knowledge），那你光靠读书就能当医生了。但现实并非如此，靠死读书是当不了医生的。你必须去当住院医，去亲耳聆听患者的心跳，去亲手按压他们的腹部，这样才能真正诊断出阑尾炎等病症。

主持人： 这很有意思。我非常期待看到大模型本身是否真的能为全球提供顶级的医疗服务，让我们拭目以待，目前看来离这一天已经很近了。另外，我一定要聊聊你在Meta的时光，你花了十多年时间，建立了一个全球最受尊敬的研究实验室。显然，你最近刚离开那里。回顾那段岁月，你觉得在掌舵FAIR（Meta基础人工智能研究院）期间，什么是你做得最正确的，什么又是最失败的？

杨立昆： 我们做对的一点，是打造了一个真正具备创新能力的顶尖研究实验室。我们产出了许多基础方法、科学理论以及像PyTorch这样惠及整个行业的工具。可以说，除了谷歌的一小部分人，整个AI行业几乎都是建立在PyTorch之上的。

我认为，开放的文化和严谨的科学流程，是实现突破性创新的必然前提。因为创新是一个完整的链条：源头是“蓝天研究”（Blue-sky Research，指纯粹出于好奇心的基础研究）和新概念，这部分大多在大学里完成。

也有部分基础研究是在工业界的顶尖实验室中进行的，但这样的实验室屈指可数。谷歌算一个，FAIR曾经算一个（希望它未来依然是，虽然我不太确定），此外还有寥寥几家。

接着就到了下一个阶段的评估：这是一个好点子，让我们推进它，看看能否将其转化为有用的技术，但这仍然停留在研究层面。

我们不会自欺欺人，也不会为了应付某个问题而强行拼凑方案。我们要验证的是，这项技术——无论是我们自己构想的，还是从开源社区汲取的——能否被进一步打磨至具备实用价值。这里的“实用”并不是指直接做成产品，而是指它能在某些特定任务或基准测试（Benchmark）中打破纪录。

随后的阶段，就需要设立该实验室的母公司拍板决定：“好，现在我们按下启动键，投入庞大的工程力量来实现这个愿景。”而这，正是无数项目折戟沉沙的地方，也是许多公司没能接住创新接力棒的断点。

Meta在这方面其实做得相当不错，但远称不上完美。它不像施乐帕罗奥多研究中心（Xerox PARC）那样，彻底错失了图形用户界面（GUI）、鼠标和窗口系统，成为了反面教材。Meta只是在过程中漏掉了几个关键环节。

这部分归咎于组织架构。你需要一个与研究紧密相连、但又不纯粹被产品指标裹挟的组织，来承担推动技术演进的重任——他们的目标不是赶着交付一个只有3个月期限的产品，而是纯粹地推动技术向前发展。

我们在Facebook和Meta曾经拥有过这样的组织，但后来失去了。FAIR基本上在公司内部被“孤立”了，虽然产出了许多前沿想法，却无人问津。到了2023年，生成式AI（Gen AI）部门成立，最初是从FAIR抽调了大约60到70名科学家和工程师，随后逐渐壮大。但由于面临着巨大的短期交付压力，Gen AI部门根本无暇与FAIR进行交流。

由于未能站在LLM创新的最前沿，Gen AI被迫将重心放在短期目标上，从而变得极为保守。这就导致研究与应用之间出现了一条难以逾越的鸿沟，形成了严重的“阻抗不匹配”（Impedance Mismatch）。

主持人： Llama 4的情况也是如此吗？

杨立昆： 是的。甚至可以说，从Llama 3开始就已经有这种苗头了。Llama 1最初只是2022年和2023年初FAIR内部的一个小项目。当Gen AI部门成立时，Llama团队基本被整体划归了过去，随后他们开始研发Llama 2。

为什么Yann离开了Meta

随后，团队中许多人意识到：“我完全可以去创业。”这就是Mistral诞生的契机。Llama 1的两位作者联合一位来自谷歌的工程师，共同创立了Mistral。紧接着，也有少数人陆续离开，去探索其他方向。

出于种种原因，那段时期在Meta并不好过，因此引发了一波离职潮。接手Llama 2以及后续Llama 3和Llama 4的Gen AI部门，由于承受着巨大的短期压力，最终变得极其保守。

这种局面是特定团队的消失与领导层施加的压力共同作用的结果。导致事情变糟的原因有千万种，你无法将责任归咎于某个特定的人。但不可否认，这就是当时发生的事实。

主持人： 我的意思是，目前许多机构显然正面临着短期的压力，因为行业内正在上演一场极度激烈的竞赛。所以我很好奇，很显然，你们当年建立 FAIR 的那种模式，以及谷歌多年来类似的运作方式——当然还有许多研究人员在 OpenAI 或 Anthropic 等公司里尝试各种不同的研究路径——你认为这种模式在未来是否依然可行？或者说，离开大厂去创立自己的公司是不是成了仅有的出路？再或者，在当前这种激烈的竞赛态势下，你认为工业界是否还有某些地方保留着 FAIR 最初的那种精神内核？

杨立昆： 我认为在谷歌研究院(Google Research)和 DeepMind 内部，确实还有极少数地方能让人们潜心做真正的研究。但工业界正变得越来越封闭。我的意思是，谷歌显然已经三缄其口，而 Meta 和 FAIR 也在朝着同样的方向发展。现在对论文发表的限制越来越多，这使得大厂对那些真正想做突破性研究的人失去了吸引力。他们根本无法获得足够的资源。

如果研究人员在中期取得了一些有价值的进展，他们就会被要求对外保密。我不认为这是一种有利于取得突破的氛围；这种环境对创新毫无益处。

归根结底，实现突破性研究的最佳方式——就像 FAIR 早期、贝尔实验室(Bell Labs)的黄金时代以及施乐帕罗奥多研究中心(Xerox PARC)那样——就是招募最顶尖的人才。这些人嗅觉敏锐，知道该研究什么，知道该攻克哪些项目。你只需为他们提供成功的资源，然后躲远点别去碍手碍脚(get the fuck out of the way)。抱歉，请原谅我爆了粗口。

对 FAIR 的反思

主持人： 是的，我很好奇这最终会对更广泛的研究社区产生怎样的影响。显然，FAIR 的一大遗产就是你们培养了海量的研究人员，对吧？他们如今遍布整个行业生态。感觉现在那些刚开始职业生涯的年轻人，就像当年加入 FAIR 的那批年轻人的同龄人一样，当他们加入这些实验室时，面临的往往是更加短期的优先事项和关注点。我想知道，在当前的生态下，大批刚入行的年轻人被迫卷入这种追求短期效益的动态之中，这是否会改变整个生态系统的演进方式？

杨立昆： 嗯，愿意来和我共事的人，通常骨子里都带点“疯狂”，这很合理。他们也普遍认同这样一个理念：在学术界，尤其是在读博期间，你应该致力于研究下一代 AI 系统，而不是纠结于当前这一代。

如果你现在还在学术界研究大语言模型(LLM)，那简直无聊透顶——至少对我来说是这样。这本质上只是在研究大模型是如何运作的以及为什么能运作，解释其背后的机制，或是找出它们的局限性。这充其量只是描述性科学(Descriptive Science)；并没有什么创造性可言，我对此毫无兴趣。

当然，这些研究是有用的，但如果你真的想展示如何用大语言模型(LLM)做出新东西，你根本搞不到所需的 GPU 算力。所以，趁早死心吧。如果你正在读博，千万别去卷大语言模型(LLM)；毫无意义，你根本做不了什么实质性的贡献。

主持人： 你当时是如何确定是时候离开 Meta 的？听起来你似乎已经思考这些事情有一段时间了。有没有某个瞬间让你彻底下定了决心？

杨立昆： 这是多种因素交织的结果，对吧？首先，你得明白，很多人对我当初在 Facebook 和 Meta 的角色存在完全的误解。我是 2013 年底加入的，真正开始运转大概是在 2014 年初。前四年半，我是 FAIR 的负责人。我一手搭建了 FAIR 的组织架构，塑造了企业文化，招募了核心人才，并负责管理工作。

四年半之后，出于种种原因，我卸任了那个职务，转而担任首席 AI 科学家(Chief AI Scientist)。原因嘛，主要是我当时马上就要满 60 岁了——准确说是 58 岁——我就是不想再做管理了。为了让组织步入正轨，我愿意硬着头皮管一阵子，但我真的不擅长这个。这并非我的强项；我更像是一个科学或技术愿景的规划者，一个工程师，一个科学家。在管理方面，有太多人比我做得好。

所以我果断卸任了。Joelle Pineau 和 Antoine Bordes 接手了 FAIR 的管理工作。

我成为了首席 AI 科学家，直接向首席技术官(CTO)汇报，核心目标就是重启我脑海中酝酿已久的一个研究项目。

这一步至关重要，因为 FAIR 的雄心壮志始终是构建真正的智能系统。在掌管 FAIR 期间，我不得不搁置自己的研究，因为实在分身乏术。但我深知，设计出达到人类水平、具备类人能力的 AI 系统架构，是重中之重。我当时已经构思好了核心理念：这一切必须建立在自监督学习(Self-Supervised Learning)——比如从视频等感官信号中进行预测——以及整合世界模型(World Model)的基础之上。

其实早在 2016 年的 NeurIPS 大会上，我就发表过主题演讲，勾勒了 AI 研究应走的方向：利用世界模型预测行动的后果，并据此进行规划。我当时提出，强化学习(Reinforcement Learning)效率太低，根本无法带我们到达彼岸，而监督学习(Supervised Learning)也已显露其天花板。我坚信，未来必然属于自监督学习和世界模型。

此后，我启动了几个项目，探索如何落地这些概念。虽然一些涉及视频预测的路径没能走通，但我最终顿悟：你可以通过在表征空间(Representation Space)进行预测，利用视频对系统进行自监督训练。这就诞生了 JEPA 架构。通过为 JEPA 加上动作条件(Action-Conditioned)，它就能充当世界模型，并应用于规划。在 2020 年左右，我进一步完善了这个想法。

到了 2022 年，我决定撰写一篇长篇愿景论文，将我的整个理论框架和盘托出——可以说毫无保留地公开了我的所有秘诀——希望以此凝聚共识，号召大家朝着这个愿景努力。这招确实管用。它吸引了许多优秀学生加入我在纽约大学(NYU)和巴黎的团队，也在 FAIR 内部引发了强烈共鸣。Joelle Pineau 建议将此作为 FAIR 的一项核心使命，我们最终将其命名为“高级机器智能(Advanced Machine Intelligence, AMI)”。

主持人： 这成了你们那部分的内部代号。很有意思。好的。然后他让你带着这个项目离开了？

杨立昆： 而现在，这也是新公司的名字。而且你知道吗，马克·扎克伯格(Mark Zuckerberg)读了那篇论文，透彻理解了它的核心，并全力支持了这个项目。首席技术官 Andrew Bosworth，以及前任首席技术官 Mike Schroepfer 也给予了支持。我的直接上司、首席产品官 Chris Cox 也极其欣赏这个想法。所以你看，高层对这个我们内部称为 AMI 的项目给予了极大的支持。而且，它在视频处理方面确实开始显现成效。

但后来，尽管有马克和安德鲁的支持，公司还是将所有重心都转回到了大语言模型(LLM)上。我觉得底下的团队，受到了当下行业热潮的影响——也就是下面的各个层级——并没有看到这个项目的价值所在。所以在内部政治上，推进变得有些步履维艰。

正如我所说，JEPA 世界模型(JEPA World Model)的应用前景广阔；它可以落地在可穿戴智能体和机器人等领域。但 Meta 选择裁撤由杰滕德拉·马利克(Jitendra Malik)领导的整个机器人 AI 团队（他现在去了亚马逊）。所以很明显，那里的土壤已经不再适合了。它的大部分应用领域 Meta 根本不感兴趣，而 FAIR 正面临越来越大的压力，基本上被要求去全力辅佐开发大语言模型(LLM)。所以，是的，一切都很明朗了。

这种转型在面对投资者时也非常顺利。当我为 AMI 融资时，所有人都对我的故事耳熟能详。许多风投机构的投资者和员工都读过我的论文，听过我的演讲，并深信我的愿景。他们已经意识到大语言模型(LLM)的局限性，并对构建下一代 AI 系统的理念充满浓厚兴趣。

主持人： 我猜想，大规模获取算力是不是促使内部完全聚焦大语言模型（LLM）的催化剂之一？

杨立昆： 绝对是。当然，这背后可能还有其他原因。我没有任何内部消息可以对此发表评论，但很有可能马克（Mark Zuckerberg）在亚历克斯（Alex）身上看到了自己年轻时的影子，将他视作潜在的接班人。

主持人： 确实。现在的普遍看法或媒体的主流叙事往往是：当亚历克斯（Alex）加入后，运营一个研究型组织就变得更加困难了。不知道你在多大程度上感受到了这一点？

杨立昆： 关于我的角色、我与 FAIR（Meta AI 研究院）的关系，以及 Meta 的 AI 是如何运作的，外界存在一个巨大的误解。那就是：我对 Llama 没有任何技术贡献，一丝一毫都没有。

我对 Llama 唯一的贡献就是极力主张将其开源，因为当时内部对是否开源存在激烈的争论。法务部门反对，政策部门也有些抵触，但公关传播部门表示支持。所有的工程团队都支持，Boz（Andrew Bosworth）也支持。

那段时间，我们每周都会举行长达两小时的高层内部讨论，参与者多达 40 人，从马克本人一路往下。这种高强度的内部辩论持续了数月。我和 Boz 都非常明确且极力地主张：所谓的安全风险被严重夸大了，而开创一个全新产业的机遇极其巨大；通过开源 Llama 2，我们将彻底引爆整个 AI 产业。 事实证明，这正是后来发生的事情。

然而，我对 Llama 本身没有任何贡献，无论正面还是负面。我没有做任何事情去阻止或拖慢它的进度。FAIR 内部有很多人在研究大语言模型（LLM），这很好。我从未反对过这项工作，我只是指出：这不是通往人类水平智能（Human Intelligence）的终极路径，但它很有用。 这就像语音识别或机器翻译一样。

特别是自 2018 年我卸任 FAIR 主管以来，我对大家的研究方向已经没有直接的影响力了，我主要就是发表我的愿景，然后召集志同道合的人参与我的项目。他们和我合作是因为他们愿意，而不是因为我是他们的老板。我并没有命令他们和我一起工作。

因此，我对 Meta 内部的大语言模型（LLM）研究没有任何正向或负向的影响。我在战略上确实有一些影响力，但更多是偏向长期规划，以及如何运营一个研究实验室这类事情。但在过去一年，大概从 24 年初开始，显然到 25 年，FAIR 的发展方向和管理方式，基本上已经偏离了我认为保持创新、实现研究突破以及留住优秀人才所必需的轨道。就比如，现在已经有很多优秀的人才离开了。

主持人： 确实。我猜在内部，你想吸引大家参与你正在研究的项目大概也变得更难了，而且你本人肯定也承受着要多参与大语言模型（LLM）相关工作的压力。

杨立昆： 是的。不仅如此，还有很多其他人也都离开了。

给博士生的建议

主持人： 这非常引人深思。在我们的整个谈话中，让我印象深刻的一点是：你在这个领域长期保持着极其一致的观点。回看你之前提到的那些早期演讲就能发现这一点。显然，AI 是一个飞速发展的领域，过去一年也涌现了大量有趣的事情。那么在过去一年里，有什么事情让你改变了看法吗？

杨立昆： 我想说的是我们过去称之为“无监督学习”（Unsupervised Learning），现在改称为“自监督学习”（Self-supervised Learning）的整个理念。大约在 2003 年之前，无监督预训练的核心思想是——先为输入数据提取出良好的表示（Representation），然后用少量的有监督标注数据对模型进行微调（Fine-tune）——这为我们提供了一些证据，证明这整套技术是行得通的。

我曾尝试将其应用于视频领域，因为归根结底，我想要做的是训练一个系统，让它仅仅通过观察世界的运转，就能理解这个世界是如何运作的。 这就是最基本的理念。

我在 2010 年代初就开始主张这一点，并做了一些相关研究。当时只是做简单的视频预测，而且我们连 GPU 都没有。

后来，在 FAIR 成立后，我开始更认真地推进这项工作，尝试做像素级的视频预测，但我很快意识到这条路走不通。这促使我开始大力倡导自监督学习：其核心理念是训练一个通用的系统，不是为了解决某个特定任务，而是仅仅让它去做预测。然后，将这种方式学到的表示（Representation）作为下游任务的输入，再通过监督学习、强化学习（Reinforcement Learning）或其他任何方式进行训练。

这也是我 2016 年在 NIPS（当时还叫 NIPS）主题演讲后半部分的主题。在 2016 年，我一直在推动这个想法，并努力寻找能让它奏效的方法。

但令我惊讶的是，它获得了难以置信的成功，却不是在视频领域，而是在语言领域。大语言模型（LLM）实际上就是一个极其耀眼的成功案例，它证明了……确实是自监督学习（Self-supervised Learning）的成功案例。

主持人： 没错，确实如此。我觉得这是一个非常完美的结束语，但我希望把最后发言的机会留给你。我们的听众对你都已经非常熟悉了，但我还是想把麦克风交给你，有没有什么是你觉得大家应该去关注的你最近在做的新项目，或者任何你想推荐的研究工作？现在麦克风交给你。

杨立昆： 好的，我想分享一点。大语言模型之所以有效，是因为当你在处理一连串离散的符号序列时，做预测是很容易的。因为你的语言中可能的符号数量是有限的——大概只有 100,000 个可能的 token 之类的，对吧？

你可以让你的神经网络生成所有可能 token 的概率分布。然后，你可以从这个分布中采样，将生成的 token 作为新的输入填进去，再生成下一个 token，这就实现了自回归预测（Autoregressive Prediction）。

但是，这只是一个特例。如果你要应对的是真实的物理世界，你就不能使用生成式模型。此时，你必须训练一个系统来学习一种表示（Representation），并在该表示空间中进行预测。

这里存在一个巨大的挑战，直到大约五年前，我还认为这……不是那么容易解决的，尽管我早在几十年前就发明了一种解决它的技术。问题在于，如果你输入两个内容——比如一段视频的开头和它的后续片段，或者一张图片和它的受损版本——然后你把它们都输入到一个编码器（Encoder）中，接着你训练一个预测器，试图用其中一个的表示来预测另一个的表示。

此时系统会找到一个极其讨巧的解法：它会直接预测出一个恒定不变的常数表示，这样一来，预测问题就变得毫无难度。这被称为“坍缩”或“表示坍缩”（Representation Collapse）。因此，对于 JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）的自监督学习来说，最核心的问题就是：你如何防止坍缩？

我在 1993 年提出的解决方案是对比学习（Contrastive Learning）。基本原理是，你提供两类样本：一类是彼此之间应该可以互相预测的样本，另一类是彼此之间不应该能互相预测的样本。事实证明这种方法有效，但它在维度扩展上表现得非常糟糕。

还有另一种技术，实际上是 Geoff Hinton 和 Sue Becker 在 80 年代末发明的。这种方法使用两个网络，并试图最大化它们之间的互信息（Mutual Information）。Jürgen Schmidhuber 对我颇有微词，因为他在 1992 年也提出了一个类似的版本，并声称那就是 JEPA。那不是 JEPA，那只是一种防止联合嵌入架构坍缩的另一种方法。它只是一种特定的实现方式，但我认为并不是特别有效。

好，现在有了 JEPA 架构。你必须找到防止坍缩的好办法。目前有几种途径。正如我刚才所说，我认为对比方法（Contrastive methods）不是一个好途径。还有另一类方法被称为“蒸馏法”（Distillation methods）。

它们确实能防止坍缩，尽管我们尚不完全清楚原因。一个很好的例子是 DINO。它就是一种使用了蒸馏方法的联合嵌入模型。

从原理上讲，就是一个编码器去训练另一个编码器；它充当学生编码器（Student encoder）的老师。对于正在被训练的那个编码器，你会进行反向传播（Backpropagation）。而对于不参与训练的那个编码器，你不进行反向传播，而是通过指数移动平均（EMA, Exponential Moving Average）来与另一个编码器共享权重。

这就像是一套经验配方。DeepMind 有一篇关于此的论文叫 BYOL (Bootstrap Your Own Latent)，就使用了这个技巧。而这个技巧其实来源于强化学习中的某些直觉。

不知为何，它确实防止了坍缩，但我们仍未完全弄明白其中的原理。目前有一些理论论文正试图解释这一现象。

这套理论也许在某些简单的情况下能说通，但还不够令人满意。因为你以为你在优化的损失函数（Cost function），实际上并没有真正被最小化，因此你也无法对它进行监控。事实上，在训练时它反而会上升。所以，我们并不喜欢这种方法，但它确实管用。

我们训练的一些模型，例如我们的大规模视频表征学习系统(large-scale video representation learning systems)——VJEPA、VJEPA 2 和 VJEPA 2.1——都是使用这种方法训练的。IJEPA 也是如此。然而，我们正在逐渐放弃这种路径。

我们最近发表了几篇关于使用显式正则化器(explicit regularizer)来防止这种坍缩(collapse)的论文，其核心思路是尝试最大化编码器输出的信息量(information content)。这与 1989 年 Becker 和 Hinton、1992 年 Schmidhuber 以及此后许多研究者的工作属于同一脉络。在某种程度上，它也与对比技术(contrastive techniques)相关，尽管它并非基于样本的对比(sample contrastive)。

接下来的问题是：如何衡量信息量？又该如何最大化神经网络输出的信息量？问题在于，如果你试图最大化某个量，要么必须能够精确衡量它，要么必须找到它的下界(lower bound)。由于我们目前只掌握信息量的上界(upper bound)，因此无法直接测量；我们只能尽力求出这些上界，并期盼最好的结果。令人欣慰的是，这招还真管用。

因此，最新的方法被称为 SIGREG，即“草图各向同性高斯正则化”(Sketch Isotropic Gaussian Regularization)。我们之前还有一种方法叫 VICReg，即“方差、不变性、协方差正则化”(Variance, Invariance, Covariance Regularization)。SIGREG 的研究非常酷，是由我曾经的博士后、现任布朗大学助理教授的 Randall Balestriero 完成的。它的核心逻辑是：强制要求编码器输出的变量分布近似为高斯分布(Gaussian)。这是一种最大化信息量的方法，尽管它与当年 Jürgen Schmidhuber、Sue Becker 和 Geoff Hinton 所采用的方法大相径庭。

在我看来，这非常有前景。我们目前有该方法的多种变体：一种可以产生稀疏表征(sparse representations)，另一种可以产生各向同性表征(isotropic representations)——但不一定是高斯分布。我们与 Randall 以及 Mila 的学生 Luca Meiss 合著了一篇论文，在文中我们用这种方法训练了一个世界模型(world model)。虽然规模非常小，但我们认为它潜力巨大。所以，如果你只想读一篇论文，那就去读这一篇吧——《LE World Model》。

主持人： 太棒了。我们肯定会在节目说明里附上这篇论文的链接。

杨立昆： 对，不过这个名字可不是我起的。

主持人： 是 Randall 选的吧。太有意思了。Yann，说真的，非常感谢你。能有幸占用你最后一点时间，真的是一种荣幸。非常感谢你来做客这档播客。

杨立昆： 谢谢你的邀请，这次聊得很开心。

参考资料: https://www.youtube.com/watch?v=ngBraLDqzdI，公开发表于2026年05月15日

关注公众号后设🌟标，掌握第一手AI新动态

btw：如果您对AI一线动态、AI产品构建及转型感兴趣，并愿意和小伙伴们分享互动，欢迎加入瓜哥交流学习群参与讨论（联系瓜哥wx： southmelon，注明：所在行业、申请入群原因），群内定期分享瓜哥手搓Agent整理的全球AI动态内参～

访问ima瓜哥AI知识库，一键查询AI业界大佬观点：点击瓜哥公众号头像->“服务”菜单->知识库。加入后在腾讯ima.copilot APP可随时@查询。