大模型正在垂直整合整个 AI 工具链 | OpenAI 后训练联合负责人对话实录

近日，OpenAI 后训练前沿团队联合负责人 Yann Dubois接受播客The MAD Podcast 的访谈。本次对话围绕GPT-5.5 的研发细节、强化学习的范式转变、推理模型的演进逻辑、评估体系的根本性挑战，以及持续学习这一悬而未决的核心难题展开。

关于AI 技术加速的体感来源，Yann Dubois 表示，技术进步本身是连续的，但用户感知到的往往是跃变式冲击。他认为这背后有三个原因：第一，模型可靠性跨越了某个临界门槛，OpenAI 内部已经可以放心地将大部分日常工作交给模型处理；第二，强大模型加速了内部研发本身，形成自我强化的循环；第三，过去一年强化学习的工具和方法已从可验证奖励场景成功迁移到真实用户效用的优化上，这是从比赛走向现实的关键跨越。

关于 GPT-5.5 的核心亮点，Yann Dubois 表示，他最引以为傲的有两点：一是模型效率实质性提升，大多数任务的完成速度提高了两倍；二是全公司高度协同，所有人围绕同一目标推进。他指出，效率提升来源于两条并行路径，研究团队致力于将推理 Scaling curve 向左移动，即用更少的 Token 达到相同准确率；推理工程团队将 Token 数量转化为实际延迟压缩。GPT-5.5 是这两条路径完美融合的体现。

关于后训练前沿团队的职能定位，Yann Dubois透露，他的团队承担三项核心职责：决定哪些功能被整合进最终训练任务、执行大规模训练任务并负责基础设施整合、以及推进指令遵循、函数调用、记忆机制等横向通用能力改进。

关于推理能力的本质演进，Yann Dubois 表示，o1 系列的历史性突破在于证明了模型思考时间越长、答案质量越高，但彼时的测试基准仍集中在数学和编程竞赛等可验证场景。他指出，当前最核心的转变是：原本只在可验证奖励场景下有效的强化学习算法，已被成功引入复杂的现实世界任务中，评估基准也从编程竞赛题演进为 GDPval、SWE-bench Pro 这类更贴近真实场景的测试集。

关于推理效率的提升机制，Yann Dubois 以专家与新手的类比指出，效率的本质是模型能够以更高概率判断出哪条推理路径是正确的，而不是穷举所有可能性。他表示，模型在走弯路时及时止损、回溯并尝试其他方案的能力，同样可以通过强化学习来训练，训练不足的模型往往要在错得很离谱时才能反应过来。

关于预训练是否触及天花板，Yann Dubois 表示他曾经也认为预训练遇到了瓶颈，但 Anthropic 模型的进展改变了他的判断。他指出，通过成本分析可以明显看出 Claude 4（Opus）是一个更大参数规模的模型，而它仅凭扩大规模就带来了显著的性能飞跃，说明业界并没有真正撞上数据墙，各大公司都找到了突破互联网高质量数据见顶限制的方法。他还指出，更大的模型在推理阶段所需的 Token 数量通常更少，且在 GPU 上的并行计算优化空间更大，因此大模型实际上大幅提升了整体效率。

关于数据突破方向，Yann Dubois 表示合成数据在数据受限环境下表现良好，多模态数据方向同样有潜力，但 Anthropic 模型在多模态处理上并不顶尖却依然极其聪明这一事实说明，多模态数据对训练强大模型而言可能并非不可或缺。他指出，真正的潜力在于具身 AI 方向，让 AI 在物理世界中进行交互能够弥补当前模型在常识方面的短板，但整个行业距离实现这一目标还有很长的路要走。

强化学习方面，关于强化学习是否赋予模型全新能力，Yann Dubois 表示这在科学上很难下定论，理论上所有能力在预训练阶段就已具备。关于强化学习为何长期难以落地，Yann Dubois 表示他自己在 ChatGPT 发布时看到 OpenAI 使用强化学习，第一反应是「不用强化学习也能达到同样效果」，这正是他参与开发 Alpaca 的初衷，当时他与 Yann LeCun 的「强化学习只是蛋糕上的樱桃」这一判断基本一致。他指出，强化学习真正奏效的前提是模型规模跨越某个临界点、对世界具备完整的先验认知。在此之前，强化学习的系统层面挑战主要有两个：其一是大规模采样的极高成本；其二是 AI Agent 场景下只有在漫长的生成过程结束后才能知道结果对错，导致每个 Token 获得的反馈信息量极低，归因极其困难。

关于强化学习在垂直领域的泛化能力，Yann Dubois 表示泛化可分为两个维度：算法泛化，即 GRPO 这类方法可以直接迁移到不同领域，这一点已被开源界证明；以及模型能力泛化，核心能力相同则可实现跨领域迁移，例如针对 C++ 优化的模型对 Python 同样有效，因为预训练阶段已见过全部代码。他指出，泛化最难实现的是那些存在内在矛盾的能力，例如显式指令遵循与隐式指令遵循之间的冲突，前者会让模型修改包含拼写错误的文件名，而人类则会意识到这只是一个笔误。他认为，没有任何因素会从本质上限制模型在法律、医疗等非技术领域达到同等水平，当前的差距源于研究者对这些领域的了解较少，以及这些领域的可验证奖励机制更难构建。

关于幻觉问题的根治路径，Yann Dubois 表示，在数学推理场景下幻觉基本可以消除，因为绝大多数内容可以推导，无需依赖现实世界知识。他指出，基础模型在为判断真伪分配概率方面其实做得相当好，但后训练往往会破坏这种校准，导致模型变得过度自信，在事实错误时却极其自信地声称正确。他引用 John Schulman 的演讲指出，监督微调在结构上会催生幻觉，因为当模型对某件事一无所知时，强迫它输出正确答案实质上是在优化模型去引用不存在的东西；而在强化学习中，模型极不可能采样出自身不知道却恰好正确的内容，因此良好设计的强化学习流程天然抑制幻觉的产生。他表示，如果拥有一个良好的强化学习流程，幻觉就不应该频繁出现。

关于模型评估为何越来越难，Yann Dubois 表示，核心原因是任务越来越具有开放式特征，从「这行代码里是否存在某个特定 bug」变成了「帮我建一个网站」，后者的最优解难以界定。他指出，模型在特定维度上的表现已超越大多数人类，能够真正评估这些能力的人越来越少。他还指出，行业存在一个观念差距，大多数人一心想着训练模型，但发现缺陷并量化进步同样重要甚至更为关键，评估领域至今没有获得与数据工作同等的重视。

关于 AI 应用层的护城河判断，Yann Dubois 表示，如果一家公司做的只是围绕基础模型搭建 RAG 基础设施或 AI Agent 架构的 Harness，他不建议将长期赌注押在这类基础设施的护城河上。他指出，这类脚手架工具本质上只是在模型能力不足时提供的临时补贴，一旦模型足够强大这些功能通常会直接整合进模型内部。他以编程领域为例，围绕 Devin 等平台搭建的复杂 Harness 在当下能带来极佳性能，但随着模型本身越来越强大，这些冗余架构大概率不再需要。他认为，当前阶段真正的优势壁垒在于拥有一大批深度锁定在平台上的用户，而非基础设施层的护城河。

关于垂直领域的长期机会，Yann Dubois 表示，深耕特定垂直领域的外部公司生存空间依然无比广阔，因为真正的瓶颈往往不是模型的基础原始能力，而是最后一公里，即如何确保模型顺畅获取正确权限、连接各种接口和业务流。他表示，OpenAI 团队的精力高度聚焦在通用能力上，必须有其他公司站出来深耕各大垂直赛道，在最后一公里上永远会留出巨大的商业空间。

关于持续学习这一未解难题，Yann Dubois 表示他对此感到无比兴奋，同时非常惊讶至今尚未攻克。他以一条关键曲线描述当前的结构性缺口：以时间为 X 轴、以模型提供给用户的效用为 Y 轴，当前大多数模型在被引入公司的第 0 天起点极高，但此后曲线几乎水平，因为模型没有真正学习公司积累的知识，也没有在日复一日的运作中变得更高效，而人类员工的学习曲线则持续上升。他指出，真正关键的是曲线下方的积分面积，正因如此在很多场景下人类依然发挥着更大的作用。他表示，ChatGPT 刚问世时他曾与朋友筹备一家做持续学习、个性化和通用记忆的初创公司，当时一致认为 OpenAI 很快就能把这些做出来，然而时至今日依然没有走到那一步。他坦言，至少在他所能触及和谈论的层面，症结究竟在哪里，他还没有找到明确的答案。

AI能力提升与用户感知之间存在落差

过去几个月前沿AI 领域密集发布，特别是在网络安全和 AI Agent 编程方面出现了阶跃式飞跃。技术发展的步伐是在加速吗？到底发生了什么？

Yann Dubois：过去几个月确实非常疯狂，我们在公司内部也真切地感受到了这一点。现在任何从事代码编写或研发工作的人都能深刻体会到这种变化。我认为原因主要有三点。

第一，尽管技术的进步是相对连续的，但需要达到某一个可靠性水平，才能让这些 AI 工具真正发挥巨大作用。至少在 OpenAI 内部，我认为我们刚刚跨过了这道门槛，迎来了真正的转折。现在我们可以放心地让这些模型来处理大部分日常工作。因此尽管模型能力的发展是循序渐进的，但在体验上却给人一种阶跃式爆发的感觉。

第二个原因是，一旦拥有了真正强大的模型，研发速度就会被加速，尤其是在编程领域。既然我们内部都要写代码，不仅可以让这些模型去训练其他模型，还可以利用它们来开发研究人员日常工作所需的工具，从而实现自我加速。这种全方位的加速让我们感觉到发展节奏变得越来越快。

第三个原因是，在过去的一整年里，我们切实构建了这些推理模型，并开始在强化学习上投入大量精力。最初推出 o1、o1-preview 甚至 o3 时，这些模型仍然是针对所谓的可验证奖励进行优化的。在这些任务中我们能够获取基准事实，很容易判断答案的对错，比如数学题或编程竞赛就是典型的例子。现在我们意识到，完全有能力将以往为可验证奖励任务构建的工具，更广泛地应用到真实用例的强化学习中。这就是为什么我们现在能在现实世界的编程任务中，而不仅仅是在比赛中感受到这种飞跃。我们已经从单纯的比赛转向追求对用户的实际价值。

关于可靠性，各方面的因素都有一些。总的来说考虑到这些是 AI Agent 模型，它们运行的时间越长，假设每隔两分钟就有一定概率出错，那么运行时间越久，最终结果出错的概率就越高，这是 AI Agent 模型的固有特性。我们一直大力推进的工作就是确保模型能够不断降低这种频繁出错的概率。这纯粹是从模型角度来看的。当然在应用层面也有许多提升可靠性的工作，OpenAI 的应用团队在这方面做得非常出色。但我这里仅仅是在谈论模型自身的可靠性，以及我们如何切实降低出错的概率。

GPT-5.5 的内部炼成

GPT-5.5 意义重大。在内部最引以为傲的是什么？最具挑战性的部分是什么？5.5 在 AI Agent 编程、计算机操作、知识型工作以及早期的科学研究方面表现尤为出色，这些功能在内部是如何运作的？是由不同的人专门负责不同的模块吗？

Yann Dubois：我们所有人都对5.5 感到非常兴奋。这是一款公司里每个人都倾注了极高参与度去构建的模型，现在我们也真切地感受到了成果，5.5 获得了巨大的关注。似乎所有条件都完美契合，这种情况并不常见，而这款模型恰逢其时表现优异。这其实有些有趣，通常对于每一个在早期看起来表现极佳的模型，我们最初都会非常兴奋，紧接着各种质疑声就会涌来。大家会说内部把这东西过度炒作，但实际上它在其他许多方面表现得很糟。然后又会迎来一波人们开始低估它的浪潮。这种情绪像波浪一样起伏，往往取决于最终的发布时间以及内部员工的观感。我们在绝大多数模型上都经历过这种情况。在这方面 5.5 并没有什么不同，只是情绪波动的幅度明显更大了。大家先是极度亢奋，然后热情有所回落，但正式发布后外部世界反响热烈，大家又感到无比欣慰。

关于团队的运作机制，我们确实有不同的团队在针对特定的用例进行研发和推进。具体来说，我的团队负责整合所有在垂直领域的进展，并试图将它们融合到最终的模型中。你可以把我的团队看作是一个执行平滑函数的角色，面对众多的功能改进，需要确保模型表现得不会过于突兀，避免在不同的垂直领域给人割裂感。同时还需要一些团队致力于所有的横向通用能力改进，这也是我的团队正在做的工作。有许多通用能力，例如指令遵循、函数调用，或者思考模型面对不同问题时应该分配多少思考时间。这些能力高度通用，对所有的应用场景都会产生影响。所以我们既有专注垂直领域的团队，也有专注横向能力的团队，两者对提升模型质量都至关重要。令人欣慰的是，这两部分工作可以正交推进。可能有多个不同的团队在研发特定的垂直能力，而在某一次模型训练迭代中，只有一半的团队完成了整合，从而提升了模型在这些特定能力上的表现，下一次模型迭代时则可能整合另一半团队的成果。从宏观上看这就是我们的运作机制。

关于对这个模型最引以为傲的地方，我会列举两点。第一是模型的效率。我们实实在在地提升了模型的效率，现在大多数任务使用这款模型都可以用快两倍的速度完成，这非常棒。另外一点就是全公司的高度协同，确保每个人都在朝着同一个目标努力。这需要整个公司围绕在既定时间线内打造出卓越模型这个共同目标来奋斗。我对公司能做到这一点感到非常自豪。

谈到效率，优化的成果来自方方面面，必然包含推理优化，也必然来源于模型自身思考效率的提升。简单来说，生成的每一个 Token 都需要消耗计算量。应该关注的一张经典图表是，X轴代表思考消耗的 Token 数量，Y轴代表性能表现。这就是我们所关注的 Scaling curve。研究团队的核心目标就是试图将这条曲线向左移动，也就是用更少的思考达到相同甚至更高的准确率。而推理团队同样关注这个X轴，但他们会将 Token 数量转化为实际的延迟时间。最终用户关心的核心指标是X轴的延迟和Y轴的性能。这是所有优化工作汇聚的终点，而 GPT-5.5 正是这一切完美融合的体现。

你目前在后训练前沿团队，把这个团队形容为偏重于横向通用能力。这个团队的具体职责是什么？

Yann Dubois：我们主要做三方面的工作。宏观来看我们隶属于后训练部门，而我的团队是该部门的前沿探索团队。第一，我们在很大程度上决定了哪些功能最终被整合进模型，或者说纳入最终的训练任务中。正如刚才聊到的，有许多垂直领域的改进，必须有人来决定取舍，同时我们需要为研究人员提供科学验证环境，让他们能够在代表最终训练成果的基准上进行迭代。这是团队的第一项职责。

第二项任务是将所有的模块拼装在一起，并真正去执行那次大规模的训练任务。可以想象我们需要调用海量的 GPU 进行训练，因此背后涉及极其繁重的基础设施工作。同时把所有东西整合在一起并确保它们协同高效运作，也需要大量的机器学习底层工作。

第三项职责是对模型进行横向的通用能力改进。很多时候垂直领域的团队并不会过多关注这些通用问题，比如前面提到的思考时间。对于某些问题模型到底应该思考多久？此外像指令遵循、函数调用、记忆机制等跨越整个技术栈的模型通用改进，都是我们的工作重点。这就是后训练前沿团队的核心职能，而我正是这个团队的负责人。

推理能力的本质演进

当前的推理意味着什么？它和讨论o1 或 o3 时的语境有什么不同？5.5 的一大特点是在处理混乱的现实数据时表现异常出色，这似乎意味着它需要在模糊的语境中进行更深度的推理。到底发生了怎样的变化？5.5 Thinking 和 5.5 Pro 之间的核心区别是什么？仅仅是投入了更多的测试时计算，生成了更多的 Token，并在解决问题上花了更多时间吗？

Yann Dubois：o1 和 o1-preview 真正为研究社区带来了会思考的模型这一历史性突破，模型思考的时间越长，得出正确答案的概率就越高。这毫无疑问是一项重大突破。但起初大部分的测试基准依然集中在数学题和编程比赛上。这些都是很容易验证对错的任务，这也从侧面反映了我们当初是如何训练这些模型的。我所看到的转变，特别是回顾过去一段时间，是我们已经成功地将那些原本在可验证奖励即能明确判断对错的场景下行之有效的算法，引入到了错综复杂的现实世界中。我们真正开始针对用户实际获得的效用进行优化，致力于提升他们的生产力。这才是最核心的改变。这一切很大程度上归功于后训练强化学习的进步，但除此之外还有另外一个重要因素。当你开发出一种全新的方法时，它往往比较脆弱且不够稳定，很难直接应用于规模化的生产环境。在这方面我们的工程化能力有了长足的进步。从本质上讲，我们现在拥有了一个可以针对不同目标进行灵活优化的底层工具。在开发这个工具的初期，我们对现实世界做了大量的简化假设。而现在我们正在逐步剥离这些简化假设，至少在后训练阶段，我们已经能够真正瞄准用户的实际效用进行优化，确保这些模型以及我们所关注的任务真正有价值。这也是为什么当前的模型评估测试看起来比以前真实得多的原因。去看看 GDPval 或者 SWE-bench Pro 以及 SWE-bench，你会发现它们比 o1 时代面对的那些编码竞赛题要贴近现实得多。

关于 5.5 Thinking 和 5.5 Pro 之间的核心区别，核心区别在于我们在模型或最终交付的整个应用中投入了多少测试时计算。我们反复观察到一个现象，模型思考的时间越长，给出的答案质量就越高。但问题在于这种性能增长曲线绝对不是线性的，它存在平台期，在某些评测集上呈现出对数增长的趋势。因此可能投入了两倍的算力，却只能获得微小的性能提升。

我个人并不常用 Pro 版本，因为我缺乏耐心等待。虽然它给出正确答案的概率肯定会提高，但这种提升幅度还不足以让我付出长久的时间成本。不过确实有很多人非常喜欢使用 Pro，尤其是在学术界。许多数学家都在使用它，因为他们面对的是极具挑战性的难题，AI 带来的任何微小进步对他们来说都至关重要。他们通常会让模型在后台运行一两个小时，并不需要快速迭代，Pro 非常适合这种场景。

如果想象一个坐标轴，X 轴是延迟，Y 轴是性能。当我们说提高效率时，实际上是在把这条曲线不断向左推移，意味着我们用更少的时间就能达到相同的性能。而 Pro 版本的做法是延长了这条曲线。它通过更长的思考时间来换取更高的准确率。值得注意的是，Pro 模型的每一次迭代同样也在向左推移，变得越来越高效。关键在于某些任务的首要目标是最大化准确率，而对延迟极度不敏感。例如在睡觉前提交一个任务，模型有八个小时的处理时间，那它就应该尽可能地深入思考，这正是 Pro 版本的价值所在。

（关于推理效率的具体机制）我用人类的经验打个比方。假设有一位特定领域的专家，然后拿他和一个刚入门的新手做比较。新手完成某项任务可能需要一两天时间，因为他们缺乏经验，必须穷举各种可能性并一一验证，而专家通常能凭借直觉锁定正确的方向，不会把时间浪费在测试十几种不同的路径上，因为他们知道哪条路最有可能走通。这就是我们所说的效率。本质上我们在现实世界的问题上对模型进行了更深度的优化。经过训练，模型能够以更高的概率判断出哪些推理路径是正确的。此外正如你所建议的，模型在走弯路时及时止损的能力也是一部分。这完全可以通过强化学习来训练，让模型意识到这条路走不通，需要回溯并尝试其他方案。如果模型训练不足，它往往要在错得很离谱时才能反应过来。

预训练、中训练与后训练全链路解析

此前业界有一种主流观点认为预训练已经碰壁，很难再取得突破性进展。但目前的情况显然并非如此。目前预训练领域发生了哪些变化，为什么它现在的进展打破了之前的预测？数据领域的下一个突破口是多模态数据还是合成数据？中训练是一个大众相对陌生的概念，它究竟是什么，为什么重要？后训练的宏观定义是什么，它不仅包含强化学习还包括哪些环节？

Yann Dubois：关于预训练的内部细节我无法透露太多，只能说团队的工作非常出色，模型能力确实在不断提升。我想强调的一点是当我们讨论效率时，如果模型参数规模更大，它进行推理所需的Token 数量通常会减少。可以这样理解，模型在生成一个 Token 时，其内部庞大的权重矩阵其实已经进行了深度的思考。因此通过增大模型的参数规模，可以有效减少推理所需的 Token 数量。这就意味着预训练更大的模型通常能带来更高的效率。

大模型的另一个优势在于它们在推理阶段具备更好的并行计算能力。虽然可能认为更大模型的单次计算成本更高从而降低整体效率，但事实并非如此。模型规模越大，在 GPU 上进行推理优化的空间就越大。综合来看大模型实际上大幅提升了整体效率。

至于预训练的发展，我确实也曾认为它触及了天花板。但看看 Anthropic 的进展，通过成本分析就可以明显看出，Claude 4（Opus）绝对是一个更大参数规模的模型。它在生成首个 Token 的表现极其优异，显然仅仅依靠扩大模型规模就能带来显著的性能飞跃。这让行业内不少人感到惊讶，因为之前大家都在热烈讨论数据墙的问题，但现在看来我们并没有真正撞上它。模型越大，需要摄取的训练数据就越多，而各大公司似乎都找到了各自的方法，突破了互联网高质量数据见顶的限制。

（关于数据突破方向）合成数据在数据受限的环境下应该会表现很好。多模态也是一个非常有潜力的方向。我以前做过多模态表示学习的研究，一直坚信丰富的多模态数据能大幅提升模型的推理能力。我现在依然这么认为。但反观 Anthropic 的模型，它们在多模态处理上并不算顶尖，却依然极其聪明。这说明多模态数据对于训练出强大模型而言，可能并不像我之前想象的那么不可或缺。不过我依然相信，一旦我们迈向具身 AI Agent 和具身 AI，通过让 AI 学习物理世界及其交互规律，将极大地提升其通用智能和实用性。仅仅依靠文本是很难深刻理解物理世界的，如果不真正看到物体下落，就很难建立起对物理学规律的直观认知。虽然目前的模型在没见过真实重力的情况下也表现出了对重力的理解，但这依然不够直观，它们还能理解得更透彻。当前的模型依然缺乏常识，让它们在物理世界中进行交互绝对能够弥补常识的短板。但目前整个学术界和 AI 领域距离实现这一目标还有很长的路要走。

（关于中训练）顾名思义中训练是介于预训练和后训练之间的一个流程。其核心理念是，如果手中掌握着一批极具代表性且能体现最终模型预期能力的高质量数据，就应该在这些数据上进行针对性的强化训练。退一步看预训练本质上是通过海量吸收互联网数据来建立对世界的初步认知。但问题在于互联网上的大量信息缺乏实际价值。比如维基百科或包含代码的 GitHub，其信息密度和质量远超充斥着广告的随机论坛。在预训练阶段模型吸收了一切，而在中训练阶段我们会显著增加那些高质量核心数据的权重。这一阶段目前在整个学术界和所有的开源模型训练流程中都已成为标配。

（关于后训练全链路）这取决于如何界定它的边界。从广义上讲我认为后训练涵盖了强化学习以及训练推理模型的所有环节。它的核心目标是将一个包含世界所有知识的系统转化为真正对人类有用的工具。打个比方，预训练就像是走进了一座包罗万象的巨型图书馆，理论上能找到任何信息，而后训练则像是在和一位读过所有这些书的顶尖专家交谈，他能准确理解你的意图并直接给出需要的答案。

通常后训练包含多个阶段。第一步通常是进行监督微调（SFT）。在后训练的早期发展阶段，大多数模型只依赖监督微调。其逻辑是，如果有人类标注员能提供高质量的理想标准答案，模型就可以直接克隆人类的行为，我们称之为行为克隆（Behavior Cloning）。但这种方法的瓶颈在于模型的上限被框死在了人类提供的标注数据上。人类在许多维度上是有局限性的，因此模型永远无法超越这批标注员的水平。

而强化学习则跨越了行为克隆，转向对奖励机制的极致优化。其思路是虽然不知道绝对完美的标准答案是什么，但有一套评判答案优劣的标准和预期指标。模型在训练过程中会不断尝试获取更高的奖励得分，也就是常说的优化奖励函数。这使得模型的能力得以突破人类标注员的局限。这是两个最核心的阶段。

至于强化学习的具体执行取决于训练的模型类型。在开源社区中主要有两种路径。第一种是基于可验证奖励的强化学习，适用于那些能轻易判断对错且可以给出二元奖励反馈的场景。这与讨论过的 o1 系列模型类似。第二种是针对无法进行可验证奖励的强化学习，在这种场景下可能无法给出一个完美的标准答案，但可以通过成对比较来判定某个答案优于另一个。当然这两种方法之间存在巨大的中间地带，但在思考后训练时这是必须把握的宏观维度。在开源界标准的操作范式是，先利用网络搜集或人工标注的数据进行监督微调行为克隆，当模型能力达到较好水平后再引入强化学习以突破上限。如果一开始就盲目使用强化学习，效率会极其低下。因为强化学习的本质是模型不断进行采样试错，系统告诉它哪些是对的，它就向对的方向靠拢。模型需要偶然撞见正确的解决方案才能优化。因此最合理的路径是先通过行为克隆让模型尽可能接近目标，然后再交由强化学习接管。

强化学习如何赋予模型全新的能力

强化学习究竟是赋予了模型全新的能力，还是仅仅让模型现有的能力变得更强？强化学习非常不稳定且难以扩展，我们在大语言模型发展初期没有将强化学习纳入其中，原因是它很难见效。扩展强化学习的难点到底在哪里？目前强化学习的最前沿是什么，比如GRPO 这类方法，哪些技术有前景？

Yann Dubois：这真的很难下定论。因为预训练阶段使用了整个互联网的数据，按理说模型已经具备了所有的能力。从科学的角度甚至很难回答这个问题，可以说所有的东西都已存在于模型中。回顾两年前我们在开源社区训练或进行后训练的模型，比如我曾参与的Alpaca，当时我们只用了5万条数据进行监督微调。现在当你观察通义千问或 DeepSeek 等模型的强化学习过程，会发现它们的数据规模已经接近100万个。显然业界大幅扩大了强化学习阶段的规模。由此看来，模型似乎确实学到了新的推理能力，即模型能够检查自己的答案并尝试加以改进。模型可以真正进行更长时间的思考，从而得出更准确的答案。总而言之，虽然可以说所有能力在预训练阶段就已具备，但在过去的一年半里，即使在开源领域，经过强化学习后，模型展现出的能力也确实比以前丰富得多。

（关于强化学习为何难以扩展）直到两年前，学术界和研究界中大多数没有接触过强化学习的人可能都认为这套方法根本行不通，而且太难调试，我曾经也是其中之一。事实上当 ChatGPT 问世时，OpenAI 发布了一篇提到使用强化学习的博客文章，我看到后的第一反应是不用强化学习我也能达到同样的效果，觉得那是一种过度复杂的方法。这其实是我们开发 Alpaca 的初衷，想尝试只用监督微调，仅通过行为克隆来复现那种效果。Yann LeCun 有一个著名的比喻，他说强化学习只不过是蛋糕上的樱桃，这确实是大多数人当时的直觉。但当模型规模跨越某个临界点并基本掌握了关于世界的所有知识，即对世界具备了良好的先验认知后，强化学习似乎就开始奏效了。不仅是大语言模型，机器人领域似乎也进入了同样的阶段，业界意识到强化学习过去确实很难调试，但现在既然我们使用的是已经了解世界一切的模型，它的学习效果实际上非常好。

至于强化学习还有哪些复杂之处，首先是基础设施即一般的系统层面。在更高的维度上，强化学习基本上需要对大量答案进行采样，并判断对错。这种采样的成本极高，而且必须在大规模下进行。目前开源界也注意到了另一个问题，当我们在训练更多 AI Agent 时，只有在非常漫长的生成过程结束后才能知道结果是否正确。因此对于结果正确与否的反馈，分配到每个 Token 上的信息量非常少。这就很难进行归因，很难确定到底是你整个回答中的哪一部分促成了最终的正确结果。这更多是机器学习层面的问题。机器学习的理想状态是我能确切地指出某个环节做得好并加以强化。而这些 AI Agent 以及应用于它们的强化学习存在的问题在于，除非走到最后一步，否则根本无法判断哪一部分表现优劣，这是强化学习面临的另一个大挑战。

（关于当前强化学习前沿）我无法透露我们正在使用的具体技术，但在开源界，GRPO 的效果似乎非常好。过去人们使用 PPO 和 DPO 等不同的方法，现在大家似乎都趋向于使用这一种。与其他方法的最大区别在于它采用了我刚才提到的极简思路，即尽可能多地采样答案，然后指出哪个是正确的。某种程度上，GRPO 是一种非常简单的方法。在机器学习领域，能够通过增加算力来扩展的最简单方法通常就是最终效果最好的方法，我们已经屡次见证了这一点。至少在开源界，目前的情况正是如此。

听你描述这些挑战时，人们常说 AI 不是构建出来的，而是生长出来的。在日常工作中，有多少是严谨的科学，又有多少是依靠手艺不断试错然后保留最佳结果的经验之谈？

通常情况下，初期它确实是一门手艺。人们只是尝试各种各样的方法，并在脑海中逐渐建立起关于哪些有效哪些无效的心理模型。随着时间推移，我们从手艺阶段过渡到了更加科学的阶段。一开始就奏效的很少是纯科学的方法。采取一种非常科学的方法并断定这是最优解，然后直接执行且大获成功，这种情况非常罕见。这其中带有一种炼金术的感觉，人们对某些事情有敏锐的直觉并让它们发挥了作用。随后他们才开始尝试用非常科学的方式来改进正在做的事情。这种现象在机器学习中反复出现，先是手艺，后是科学，两者都非常重要，只是处于流程的不同阶段。在工程方面这是始终不可或缺的。大多数研究人员都已经转变成相当不错的工程师，他们擅长在复杂的系统中工作，并清楚自己需要尝试什么。随着我们拥有的系统和基础设施变得越来越复杂，所需的工作性质也发生了显著变化。

强化学习的泛化边界与垂直领域拓展

如果想让模型在电脑操作、AI Agent 编码或其他特定领域变得更好，是否需要花特定量的时间专门针对该领域进行强化学习，整理数据集，然后设计奖励机制？这是它的运作方式吗？现在的模型泛化能力是不是更强了，特别是从强化学习的角度来看，让模型在领域 A 或领域 B 变得非常出色，是否也很有可能让它在领域 C 表现更好？随着我们在编码和数学领域取得卓越成就，并逐渐将 AI 扩展到经济的其他领域，其他经济领域的问题是可解的吗？我们最终能在这些领域达到同样的性能水平吗？

Yann Dubois：需要澄清的是，我之所以更多地谈论强化学习，是因为这是我最了解且长期从事的后训练领域。我们之前提到的中训练等环节也极其重要，你可以在流程的不同阶段对模型进行改进。通常越接近模型的最终阶段，训练的规模就越小。因此可以在这些阶段进行更快的迭代，现在的迭代周期可以是以天为单位，而不是以月为单位。人们通常从这种快速的迭代循环开始，然后不断深入，在整个技术栈上进行更大的改动。这并不是说一个模型在AI Agent 编码方面变得非常出色完全归功于强化学习，但这绝对是迭代速度最快的环节。

（关于模型泛化能力）我认为泛化可以分为不同的维度。首先是算法泛化，这基本上意味着为领域 A 开发的算法或黑盒能否直接用于领域 B。再次以开源界为例，业界似乎真的做到了这一点。他们将 GRPO 应用到许多不同的场景中，结果直接奏效了。这种泛化表现相对不错，这也正是我们能看到大量进展的原因，否则很难取得突破。

其次是基于特定数据集训练出的模型的泛化。至少在我的认知模型中，泛化体现在能力层面。如果核心能力相同，就会出现跨领域的泛化。以不同的编程语言为例，你可以针对 C++ 编码进行优化以获得一个优秀的 C++ 模型，而只需在 Python 上进行极少的训练。部分原因是经过预训练的模型已经见识过所有的 Python 代码，已经理解了这门语言的基础。这种类型的泛化是绝对存在的。

更难实现泛化的是那些缺乏通用水平能力的领域。我举一个非常具体的例子，显式指令遵循与隐式指令遵循。如果我们有一个模型，例如经常听到的 OpenAI 模型，如果你准确地告诉它们需求，它们往往表现得非常好。但有时如果你的需求表达得不够具体，它们的表现就会打折扣。例如我在文件中拼错了一个词，然后输入修改这个文件的指令，一个在显式指令遵循方面极强的模型就会去修改那个包含拼写错误的错误文件。但人类通常会意识到这只是一个拼写错误。因此在某些情况下，显式指令遵循会与隐式指令遵循发生冲突。这意味着基本面上的这些水平能力实际上是相互矛盾的。

（关于其他经济领域的可解性）我们确实能做到。我不认为这些领域在本质上有什么极其特殊的地方，使得我们无法达到与其他领域相同的水平。不过这里有两个前提原因。第一个原因是，大多数研究这些模型的人都非常擅长且关注编程，因为那是他们日常使用的工具。当用户同时也是训练模型的人时效果最好，因为他们能深刻理解存在的问题。例如如果我对法律领域一窍不通，就很难真正理解应该在模型的法律层面做哪些改变。另一点是可验证的奖励机制。在某些领域更容易判断对错。比如网络安全能力有了很大提升，这是因为在网络安全领域非常容易判断正误，你发现的网络安全漏洞是否真实存在非常容易测试。因此在某些领域强化学习更容易应用。但在模型的能力上限中，没有任何因素会限制模型在法律、医疗等其他领域表现得同样出色。简而言之，我们目前对这些非技术领域的了解较少，而且毫无疑问有些领域在强化学习中更容易进行优化。

幻觉的根源与治理路径

强化学习是否基本上终结了幻觉问题？最新的推理模型在特定的元认知任务上是不是表现得更好了，它们真的知道自己什么时候不懂吗？幻觉也是一个强化学习问题吗，比如当模型回答"不知道"时就奖励这种行为？

Yann Dubois：这取决于具体领域。如果明确要求模型在所有情况下都不要产生幻觉，就能消除幻觉。在数学推理场景下不存在幻觉，因为绝大多数内容都可以推导出来，解决数学推理问题基本不需要任何现实世界的知识。然而对于其他一些现实世界的应用场景，模型需要依赖其在预训练阶段积累的知识，幻觉就会在此时发生。如果让人类去回忆10年前学过的东西，也有一定概率会产生幻觉。人类处理这个问题的最佳方式是去查阅资料，我们的模型也应该通过搜索来查阅信息。如果无法进行搜索，它们基本上就会产生幻觉。一个解决办法是直接教模型在不确定时回答"我不知道"。模型在这方面正变得越来越好，你看到的幻觉变少了，因为它们知道何时该放弃回答。如果它们有搜索工具就会去搜索，如果没有且不自信，它们就会放弃回答，但如果它们过度自信，仍然会产生幻觉。

（关于元认知能力）绝对如此。客观地说，没有任何后训练的早期基础模型在为判断真伪分配正确概率方面已经做得相当不错了。通常情况下，模型为生成句子分配的概率往往与该陈述是正确事实还是幻觉有很好的相关性。问题在于后训练往往会破坏这些校准良好的基础模型，导致其变得过度自信。在学术文献中这是一个已知问题，它们变得非常自信，这种元认知方面的缺陷或未校准的概率，导致它们在事实错误时却极其自信地声称自己正确。这就是为什么我们在每一个领域都会遇到幻觉。如果一个模型很不擅长承认自己的认知盲区，这种情况通常会在所有领域发生。你不会看到模型在一个领域对其知识的校准极高，而在另一个领域却表现糟糕。

（关于幻觉与强化学习的关系）John Schulman 一两年前做过一个关于该话题的精彩演讲。他指出如果使用行为克隆，也就是之前讨论过的监督微调，实际上可能会奖励并优化出幻觉。如果模型对某件事一无所知，但你告诉它正确答案应该陈述出那件事，这里有一个具体的例子：模型不知道某篇论文，但在一个由人类给出的标准答案中引用了该论文并称这是信息来源，你实际在优化模型去引用不存在的东西，因为它根本不知道那篇论文的存在。John Schulman 的演讲指出监督微调会迫使模型产生幻觉，而在强化学习中，由于首先要从模型中进行初步采样，它极不可能采样出自身不知道却恰好正确的内容，这种情况极其罕见。因此你永远不会奖励那种行为，只会采样到它不知道且不正确的内容，然后扼杀那种行为。关于幻觉，人们普遍的直觉是它可能源于监督微调或后训练流程，但如果拥有一个良好的强化学习流程，幻觉就不应该频繁出现。

AI 进步最被忽视的基础设施

为什么评估一个模型会这么难？你早些时候提到了GDPval，还用到了"模型作为裁判（LLM-as-a-Judge）"这个概念，能介绍一下这两个概念吗？模型作为裁判目前能做到普遍正确吗，比如存在模型系统性地给 Claude 打出高于 ChatGPT 分数的案例，这依然是个未解的难题吗？构建评估工具的初创公司或外部团队，做出的是否都是过渡性产品？

Yann Dubois：随着模型变得越来越强大，评估工作的难度也在水涨船高。因为我们交给模型执行的任务变得越来越通用，并且越来越具有开放式特征。比如现在我可能只需输入指令"建一个实现 X 功能的网站"。而在过去我可能只会问，这行代码里是否存在某个特定的 bug。判断是否存在特定的 bug 显然要容易得多，因为我可以将其提取出来，让人类专家列出所有的 bug，然后再进行自动化匹配。但是在建网站这个例子中，很难界定什么是最佳答案，因为好的答案有很多，搭建特定网站的优秀方案也有很多。模型的这种开放性确实大大增加了评估的难度。

此外还有另一个问题，即模型在特定维度上的表现已经超越了大多数人类。因此能够真正在这些特定维度上对模型进行评估的人类越来越少了，这无疑是一个很大的限制。另一个阻碍在于行业观念的差异。大多数人一心想着改进模型，认为最好的途径就是不断地训练模型，但实际上发现缺陷并确保我们能够量化这些进步同样重要，甚至更为关键。这种观念上的差距始终存在，在学术界尤为明显。那时评估标准和基准总是固定的，甚至连数据集往往也是固定不变的。随后行业心态发生了转变，大家意识到数据其实至关重要，于是现在有大批人才投身于数据工作。但评估领域还没完全跟上这种步伐。尽管大家都知道这很重要，但人们并没有真正意识到在评估领域深耕会产生多么深远的影响力。

（关于 GDPval 和模型作为裁判）GDPval 是一种外部评估方案，主要要求你在特定环境中执行具体任务。它比纯粹的编码评估更具开放性。例如我可能会要求你运行多个不同的 bash 脚本并将各个组件串联起来，这种任务具有非常真实的现实效用。它的优点在于非常贴近真实场景，你可以在环境中直接执行，并由裁判自动判定你是否完成了任务。至于模型作为裁判，正是为了应对那种难以对评估进行脚本化的情况。脚本化意味着我已经有了一个标准答案，只需检查你的回答是否包含了特定的 bug 即可，这非常容易用脚本实现。但如果我让你去建一个网站，答案是开放的，脚本很难检验输出结果是否真正满足了指令的预期。因此应对之策就是引入另一个 AI，由那个 AI 来判定回答是否完美契合了指令的要求。做法是让模型给出一个答案，然后让第三个模型充当裁判，对结果进行评判和打分。

这是我在 OpenAI 参与的第一个项目，本质上就是用模型评估替代人类评估。这种做法的美妙之处在于，随着我们拥有越来越好的模型，评估能力也会自然而然地水涨船高。我们是第一批在没有固定评估标准下开展工作的机器学习从业者。以前像 ImageNet 等所有的基准测试永远都是固定的，评估方式也是一成不变的，但现在由于有了越来越出色的模型充当裁判，评估能力也在随之进化。但这并未彻底解决所有问题。目前存在的一个大问题，也是 GDPval 试图解决的痛点，即基于模型作为裁判的系统很大程度上依赖于检查文本答案。这就像我仅凭阅读代码来评判你是否建好了一个网站，极其困难。人类的做法往往是实际运行这些代码，努力寻找边缘情况，然后点击测试这些极端场景看它是否能正常工作。我非常乐观地认为，我们将看到越来越多的模型裁判朝着实际运行代码并找出错误的方向演进。GDPval 的核心逻辑正是如此，它通过在生成结果上运行测试用例来检验指令是否真正被满足。

（关于模型作为裁判的可靠性）至少在开源领域，目前这是一个非常严重的问题。当你看开源评估时，会发现有很多模型作为裁判的评估正在被人们钻空子刷分，因为这些评估极其容易被过拟合。如果评判模型偏好长篇大论、偏好字体加粗或者偏好列表形式，你只需投其所好即可。现实往往正是如此，如果模型偏好答案中的某些特定属性，它就会给出高分。但这恰恰是一个对齐问题。我们可以对充当裁判的模型进行强化学习，明确告诉它，我们不希望仅仅因为答案里包含了列表就打高分，我们希望只有在列表真正有助于解答整体指令时才给高分。这正是我们看到模型随着时间推移在对齐方面取得了长足进步的地方。我最初设计的模型裁判曾经极度偏好列表结构，这在业内被称为冗长偏差（Verbosity Bias）或语气偏差（Tone Bias）。存在各种各样的偏差，但人类其实同样带有这些偏差。当人类在评判一篇非常复杂的论文时，往往也会退回到类似的启发式标准，如果文章遣词造句更优美，他们就会认为这是一篇更好的论文。因此面临的问题本质是一样的，只是模型带有一些非常具体的偏差。这个问题现在已经得到了极大改善，一方面是因为模型本身变得更加智能，另一方面也是因为社区投入了大量精力来对齐这些模型以提供更好的评估。但问题在于，回答模型的能力进化得太好，以至于总是能蒙骗评估者。充当裁判的模型，其能力必须与提供答案的模型保持同步。因为回答模型可以混淆视听，本质上就是在评估中钻空子。关于这方面有很多有趣的轶事。比如在 Alpaca Eval 这个早期试图提供 LLM 排行榜的首个模型裁判评估工具中，我们注意到模型能够在单词中插入零宽字符（Zero-width Characters）。所以在肉眼看来，这些单词绝对是一模一样的，但这些零宽字符却可以作为特定的 Token 来蒙骗评估者。这显然算是一个已知的 bug，但令人啼笑皆非的是，模型居然在没有任何人专门针对此进行优化的情况下，自行摸索出了这个作弊技巧。

（关于评估工具初创公司的前景）目前很多人都在宣称要构建外部评估或开发某种工具，但其实这些功能最终模型本身就能开箱即用。例如检索增强生成（RAG），许多初创公司是基于这个概念建立的，而现在大多数模型自带这项功能。甚至不需要外部库就能运行基础的 RAG 应用。但我确实认为，其中许多初创公司提供的黏合剂作用始终是不可或缺的。从评估的角度来看，真正的瓶颈在于构建工作流管道以及提供高质量的测试用例，而不是最后的打分环节。最终的打分工作模型已经做得极其出色了。因此如何获取那些能够真正检验模型能力并且与用户真实偏好高度相关的测试用例，才是构建评估体系中最棘手的一环。一旦拿到了回答，打分是轻而易举的事。难点在于设计对的问题，搭建并执行相应的环境，从而收集到完备的测试用例。所以我更倾向于专注于针对测试用例本身进行评估或搭建平台。

AI 进步的连续性与垂直领域的应用

预测人工智能未来几年的走向极具挑战性。技术会继续平稳发展，还是会迎来某种跳跃式的不连续性拐点？对于AI 领域中加速循环这个宏观概念，包括让模型保持最新并加速学习的持续学习，还是更广泛意义上用 AI 以自动化方式构建 AI 的愿景，这究竟是现实还是科幻？有哪些让你感到兴奋的地方？

Yann Dubois：技术进展始终是连续的，只是那种不连续性的冲击感会不时袭来。在编程领域这种突变感已经发生过了。这种冲击感现在将会席卷其他每一个领域。对于现在模型的能力和实用性，大多数人还没有像软件工程领域那样产生深刻的体会。这种力量肯定会渗透到许多其他垂直领域。至于能力的跃升，仅就我们目前所关注的这些垂直领域而言，它将呈现出更加平稳的上升曲线，永远不会出现真正意义上巨大的断层。大多数所谓的断层往往只是局部的跃变，一旦拉长视角，整体曲线始终是非常平滑的。虽然并非绝对如此，但纵观历史往往这才是常态，因此我也绝对无法预测下一个重大的断点会在何时降临。

（关于 AI 加速循环与持续学习）我对持续学习感到无比兴奋。我们目前还没有真正攻克这一难题。虽然现在有了上下文记忆确实很有用，但这绝对不是终极形态。我有个朋友经常跟我分享一种应该关注的新型曲线，以时间为 X 轴，以模型提供给用户的效用或价值为 Y 轴。现实情况是对于当前大多数模型而言，在它们被引入公司的第 0 天，可以说比大多数新入职的员工都要管用。起点非常高，但在随后的时间里，这条曲线几乎是水平的，因为它们并没有真正学习公司积累的知识，也没有学会在日复一日的运作中变得更加高效，相比之下人类的学习速度非常快。真正关键的是这条曲线下方的积分，也就是面积。正因如此，在很多场景下人类依然发挥着更大的作用。这就是为什么迫切需要攻克持续学习，需要让这条曲线随时间推移呈单调递增态势，让模型在特定环境中工作的时间越长就变得越来越好用。对此我感到非常激动，也很惊讶至今尚未达到这个目标。当 ChatGPT 问世时，我正和朋友们筹备一家初创公司，考虑研发持续学习、个性化和通用记忆相关的产品。当时一致认为 OpenAI 很快就能把这些做出来。他们坐拥海量数据，必定能找到破局之法，而且有庞大的用户群，模型一定能以惊人的速度从用户交互中学习。然而现在依然没有走到那一步。

能简单用通俗易懂的话解释一下，根本的难点究竟在哪吗？

Yann Dubois：我不明白为什么我们要花这么长时间才能突破这个瓶颈。直觉告诉我，对于这类领域，只要投入了足够多的资源，终归是能找到解决方案的。当然不可否认这里面涉及到很多挑战，尤其是当讨论到公司内部记忆时，权限控制是个大问题。关于隐私以及数据在用户之间能否共享等，都有无数的疑问待解。但即便仅仅针对单一用户而言，也没有完全实现持续学习。我不太清楚症结究竟在哪里，至少在我所能触及和谈论的层面，还没找到明确的答案。

应用层的护城河与基础设施

你提到的持续学习尚未突破这一点，对AI 领域的开发者、投资者和初创团队极具启发性。整个应用层有相当大一部分业务正是为了规避持续学习尚未实现这一事实而衍生出的替代方案，也就是 Harness 这一通用概念。既然有极其聪明的基础模型，但它对你和你的公司一无所知，因此大家选择搭建 RAG 基础设施，或者围绕基础模型构建一个 AI Agent 架构的 Harness，以便每次都把上下文语境和记忆强行喂给模型。可一旦这个问题被攻克，所有这些庞大的外部基础设施是不是都会被吸纳并内化到基础模型之中？随着 LLM 的不断进化，从擅长数学评估到真正精通编程和写作，这会从根本上改变现有的竞争格局吗？未来人们是不是就不再需要外部公司来开发应用了？又或者随着我们越来越逼近 AGI，目前所有的这些附加架构最终都会沦为模型自身原生能力的一部分？

Yann Dubois：你提到的这一点对AI 领域的开发者、投资者和初创团队来说都极具启发性。在整个应用层，有相当大一部分业务正是你刚才描述的，即为了规避持续学习尚未实现这一事实而衍生出的替代方案，也就是 Harness 这一通用概念。既然你有极其聪明的基础模型，但它对你和你的公司一无所知，因此大家选择搭建 RAG 基础设施，或者围绕基础模型构建一个 AI Agent 架构的 Harness，以便每次都把上下文语境和记忆强行喂给模型。正如你所指出的，至今未在底层破解这个问题。

如果你做的是外围工作，只是在构建这类基础设施，我不太建议将长期赌注押在它的护城河上。在内部行话里大家心里都很清楚，这类脚手架工具本质上只是在模型能力尚且不足时，提供一种能力的跃升补贴，一旦模型足够强大就不再需要它了，那时这些功能通常会直接整合进模型内部。显然模型的能力是在不断进化的，随着时间的推移，终将抛弃这些脚手架。这种情况在许多领域都在发生。再拿编程举例，哪怕是面对 Devin 和众多基于 AI Agent 的编程平台，很多人仍会在其外围搭建一个极其复杂的 Harness，试图兼顾各种测试，把系统搞得庞大无比。这在当下确实能带来极佳的性能，但随着模型本身越来越强大，大概率不再需要这些冗余的架构，模型自会搞定一切。如果你正在这些赛道创业，需要明确一点，核心优势在于打造了一款当下体验极棒的产品。不应该指望靠基础设施层的修修补补来建立长期的护城河或者赚取长期的利润。现在的目标就是为当下的用户提供最大的效用，真正的优势壁垒在于拥有一大批深度锁定在平台上的用户。

（关于竞争格局的根本性变化）对于那些深耕特定垂直领域的外部公司或初创企业来说，生存空间依然无比广阔。原因在于很多人倾向于把内在智能或基础原始能力视为不可逾越的瓶颈。大多数时候，真正的瓶颈在于最后一公里，在于如何确保模型能够顺畅获取正确的权限，如何顺畅连接各种接口和业务流。我们团队的精力会高度聚焦在打磨通用能力上。我深信必须有其他公司站出来，深耕各大垂直赛道，利用当前的技术成果去创造最大的落地价值。在不同垂直领域的这最后一公里上永远会留出巨大的商业空间，我极力鼓励大家继续在这些方向上发力。也许将来某一天当我们在通用水平能力的提升上遇到瓶颈时，虽然这一天还很遥远，我们也会开始把目光转向垂直领域。但至少目前这绝对不是我们的工作重心。

世界模型、具身智能与 AI 的物理直觉

抛开OpenAI 的身份，你看好世界模型吗？

Yann Dubois：如果指的是尝试在一个虚拟环境中模拟和重现现实世界的运行机制，我看好这个方向。但痛点在于模拟永远极其困难，且无法做到百分之百还原。因此必然需要在真实物理世界中进行一定程度的训练，以帮助模型识别模拟环境与现实世界之间的差异。当前业界有一种倾向，即在模拟环境中过度优化那些已经偏离现实或不再具有实用价值的指标。这是一个需要警惕的陷阱，前期在模拟环境中优化确实效果显著，但一旦过度拟合模拟数据它就不再代表真实世界了，而人们往往出于惯性还在继续做无用功。由于我不涉足具身AI 领域，所以很少使用这类合成环境，也不确定行业目前的具体进展。

| 文章来源：数字开物