Claude最新研究:AI可以开始递归自我构建了,这世界太疯狂^

Claude最新研究:AI可以开始递归自我构建了,这世界太疯狂^_^

当 AI 开始自我构建

我们在递归自我改进方面的进展及其影响

在 AI 历史的大部分时间里，人类推动了其发展周期的每一步。但在 Anthropic，我们正在将越来越多的 AI 开发工作委托给 AI 系统本身，这正在加速我们的工作。

如果这一趋势持续足够长的时间，并辅以足够的算力，它将指向一个能够完全自主地设计和开发其继任者的 AI 系统。这被称为递归自我改进。我们尚未达到这一阶段，递归自我改进也并非必然。但它可能比大多数机构的预期来得更快。

利用公开基准测试和 Anthropic 内部此前未公开的数据，Anthropic 研究所表明，AI 已经在加速 AI 系统的开发。仅举一个例子：如今，Anthropic 工程师平均每个季度合并的代码量是 2021-2025 年期间的 8 倍。

本文讨论的技术趋势表明，未来几年 AI 系统的能力将大幅增强。这些趋势具有巨大的影响。能够自我构建的 AI 将是技术史上的重大发展——这可能为世界的科学、医疗保健等领域带来巨大益处。但完全的递归自我改进也可能增加人类失去对 AI 系统控制的风险。如果系统能够完全构建自己的继任者，我们保护它们、监控它们以及塑造其行为的方式都将变得重要得多。

构建第一个 Claude

在早期，Anthropic 的工作与其他科技公司无异：人们在笔记本电脑上编写代码和文档。

聊天机器人

人们使用早期的聊天机器人来协助流程中的部分环节，比如生成简短的代码片段并将输出复制到文本编辑器中。

编码智能体

随着智能体能力的提升，它们能够自行编写和编辑代码，有时甚至是整个文件。

自主智能体

智能体现在可以自己运行代码，并将数小时的工作委托给其他智能体。

闭环

未来，智能体可能变得足够强大，能够自行构建和训练模型。如果发生这种情况，未来版本的 Claude 可能会由 Claude 自身持续改进。

来自外部世界的证据

AI 模型的改进速度正在加快。它们能够可靠地独立完成的任务时长，已从早期每七个月翻一番，提速至大约每四个月翻一番。2024 年 3 月，Claude Opus 3 可以完成人类大约需要四分钟才能完成的软件任务。一年后，Claude Sonnet 3.7 能够处理大约一个半小时的任务。

再一年后，Claude Opus 4.6 能够处理 12 小时的任务。¹ 如果这一趋势持续下去，今年内，需要熟练人员数天才能完成的任务可能也将进入其能力范围。到 2027 年，AI 系统或许能够处理需要一个人数周才能完成的任务。

同样的模式也出现在编码和研究基准测试中。基准测试衡量模型在特定领域内的表现，当模型性能接近 100% 时，即称为该基准被“饱和”。² SWE-bench 是一项针对现实世界软件工程的标准测试：它向模型提供一个实际的开源代码库和一个真实的错误报告，并要求其编写修复该问题并通过项目自身测试的代码更改。两年内，模型的得分已从个位数上升到饱和该基准。

CORE-Bench 测试模型是否能复现现有研究，这是其进行原创研究的先决条件。它向 AI 模型提供已发表论文背后的代码和数据，并要求其重新运行所有内容并确认能够复现论文的结果。AI 系统在 2024 年成功复现结果的概率约为 20%，十五个月后便饱和了该基准。运行测量模型完成长时间任务能力的基准测试的 METR 发现，Claude Mythos Preview 可以工作“至少”16 小时，并且“处于 [METR] 在不设计新任务的情况下能够测量的上限”。

公开基准测试在很大程度上说明了这些系统的能力。但它们无法揭示 AI 系统对加速 AI 开发本身所产生的影响。为此，我们需要来自 Anthropic 等 AI 公司内部的直接证据。

来自 Anthropic 内部的证据

构建一个前沿模型需要两大类工作。一是工程：编写代码、搭建基础设施和监督模型训练。二是研究：决定运行哪些实验、解读返回的结果，以及找出接下来尝试哪些想法。

在工程和研究两方面，情况是一致的。在工程方面，可以给 Claude 一个定义模糊的问题，它能弄清楚如何解决；人类提供目标，但不再需要提供方法。在研究方面，Claude 在执行定义明确的实验时，已经能够匹配或超过熟练人类的表现。然而，在 Claude 于工程和研究两方面都需要运用判断力来选择目标时，仍存在巨大的性能差距。这就是当今 AI 与未来能够自主设计其继任者的系统之间的鸿沟。

Anthropic 的员工通常在获得更多经验后承担更开放和重要的任务。起初，他们执行他人指定的任务，例如“导出按钮不起作用，请修复它。”随着经验积累，他们会收到目标并自行设计方法，例如“调查网络在高负载下变慢的原因。”在最高级别，他们决定哪些问题值得投入工作：“团队下个季度应该构建什么？”我们可以利用 Anthropic 的内部数据来观察 Claude 在处理这些不同类型的任务方面已经取得了多大进展。

Claude 编写了 Anthropic 很大比例的代码。截至 2026 年 5 月，我们合并到 Anthropic 代码库中的代码中，超过 80% 是由 Claude 编写的。³ 在 2025 年 2 月 Claude Code 以研究预览版发布之前，这个数字是个位数。这种转变也体现在每位工程师的输出量上。每位工程师每天合并的代码行数在 Anthropic 的前四年（2021-2024 年）保持恒定，然后在 2025 年开始上升，当时 Claude 开始运行代码，而不仅仅是建议工程师复制粘贴。2026 年，随着模型开始在更长的时间范围内自主工作，曲线再次变陡。这两个拐点如下图所示。2026 年第二季度，典型工程师每天合并的代码量是 2024 年的 8 倍。⁴ 这是因为大部分代码是由 Claude 编写的，工程师负责指导和审查，而不是亲自输入。

柱状图显示每人每季度贡献的代码量，从 2021 年第二季度开始，到 2026 年第二季度结束。图表标注了八种不同模型的发布日期：Claude 1、Claude 2、Claude 3、Claude 4、Claude Code、Claude Sonnet 4.5、Claude Opus 4.5、Claude Mythos Preview（内部访问）和 Claude Mythos Preview。

注意事项：代码行数是一个不完美的衡量标准，因为它衡量的是数量而非质量。因此，2026 年第二季度每人每天 8 倍的代码行数几乎可以肯定高估了真实的生产力增益。尽管如此，它表明了加速的趋势。在 Anthropic，我们不会奖励人们写了多少行代码；相反，团队成员只是因为使用 AI 系统编写了更多代码，从而产生了更多的代码。

代码行数的增加与对生产力大幅提升的主观印象相符。在 2026 年 3 月对 Anthropic 研究团队 130 名员工的一项调查中，中位数受访者估计，使用 Mythos Preview 后，他们在无论何种项目上的产出大约是无法访问任何 AI 模型时的 4 倍。⁵ 我们预计 3 月份的真实提升程度会略低一些。⁶ 尽管如此，我们认为这一总体说法是合理的，并且与我们的其他观察一致：相当一部分 Anthropic 技术人员完成其核心工作的速度是未使用 AI 辅助时的数倍。

我们还看到证据表明，Anthropic 的员工正在使用 Claude 来完成那些原本根本不会发生的工作，比如构建探索性工具和解决长期拖延的清理工作。例如，2026 年 4 月，Claude 交付了 800 多个修复程序，将一类 API 错误减少了 1000 倍。监督 Claude 的工程师估计，人类完成这项工作可能需要四年时间；解决他人的错误既缓慢又费力，人类很难同时将如此多不熟悉的上下文记在脑中。

“大约一年前，我开始重度依赖‘Claudify’（指深度使用 Claude）。那是一段疯狂的冒险，距离我上次亲手写代码已经过去了大约 5 个月。”
——Anthropic 员工*

Claude 编写的代码是“好”的，并且还在不断改进。“好的代码”意味着两点：它能工作，并且其编写方式能让其他工程师理解和在此基础上构建。关于第一个标准，证据是明确的。Anthropic 员工在任务中途纠正、重定向或从 Claude 手中接管工作的比率一年来稳步下降，即使在最复杂和最开放的任务中也是如此。这指的是没有明确规范的问题，工程师不确定答案是什么样的。这在下图所示的 Claude 在不同难度任务上的随时间成功率中显而易见。Claude 编写的代码是有效的。

折线图显示了 Claude Code 会话在四种不同类型任务上的成功率——琐碎任务、常规任务、实质性任务和开放式问题——涉及六种不同的模型：Claude Sonnet 4.5、Claude Opus 4.5、Claude Opus 4.6、Mythos Preview（内部访问）、Mythos Preview 和 Claude Opus 4.7。

如何阅读此图：会话成功与否由 Claude 裁判判定；如果 Claude Code 智能体明确成功地完成了用户的任务且无需纠正，则该会话被视为成功。工作负载的变化可能导致成功率的短期波动。

在最开放的任务上，Claude 的成功率在 2026 年 5 月达到了 76%，六个月内上升了 50 个百分点。举例来说这个难度级别的任务：一次例行的升级导致数万个训练作业崩溃。一名工程师将 Claude 指向实时事件，只提供了一些文本内容和集群访问权限。通过检查正在运行的作业并一次测试一个环境设置，Claude 隔离出了触发崩溃的那个晦涩的调试标志，可靠地复现了它，并确认了修复方案。大约在两小时内，Claude 完成了通常需要两到三天才能完成的工作。

第二个标准是编写其他工程师能够理解和构建的代码。在这方面，人类和 AI 之间的差距仍然存在，但正在迅速缩小。Anthropic 员工之间尚未完全达成共识，但许多人认为，在 2025 年底，Claude 编写的代码质量仍略逊于 Anthropic 的人类编写的代码，而如今已基本持平。我们预计年内它会变得更好。

这改变了 Anthropic 现在审查自身代码的方式。对我们代码库的拟议更改现在会先经过一个自动化的 Claude 审查员审阅，查找错误、安全漏洞和其他缺陷，然后才能合并。使用该工具，我们进行了一项回顾性分析，发现如果每次代码库更改都经过自动化 Claude 审查，本可以捕获导致过去 claude.ai 事件的大约三分之一的错误，然后再它们进入生产环境。编写这些代码的工程师是世界上构建此类系统的最优秀人才之一。Claude 现在正在捕获他们遗漏的错误。

“2025 年底，Claude 编写的代码在 Anthropic 的质量还略逊于人类编写的代码，如今已基本持平，我们预计年内会严格优于人类。”

Claude 擅长运行实验以实现他人设定的目标。每次 Anthropic 发布模型时，我们都会运行相同的测试：我们给 Claude 一些训练小型 AI 模型的代码，并要求它在仍然通过相同正确性检查的同时，使该代码运行得尽可能快。目标和成功指标是预先固定的，所以 Claude 的工作是通过重写代码、运行它、计时并重复来寻找加速方法。这是一个微型版的实验研究循环。2025 年 5 月，Claude Opus 4 平均实现了比起始代码约 3 倍的加速。到 2026 年 4 月，Claude Mythos Preview 实现了约 52 倍的加速。作为校准，一位熟练的人类研究员需要四到八小时才能达到 4 倍。⁷ 在研究工作流程的这一部分——优化明确定义的实验中的步骤——Claude 在不到一年的时间里从超级有用变成了超人水平。

“如今的形态大致是‘人类有想法，模型能够以比以前快 [一个数量级] 的速度来实现、测试和评估它们。’”

Claude 在提出自己的实验方面越来越擅长。2026 年 4 月，Anthropic 发表了首个展示 Claude 端到端运行开放式研究项目的演示。由 Claude 驱动的智能体被赋予了一个 AI 安全领域的开放性问题——大致是，一个较弱模型能否可靠地监督一个较强的模型？——并被留下来解决这个问题。这包括提出假设、测试它们、与并行智能体分享发现并进行迭代。该任务有明确的性能“下限”和“上限”：下限是弱监督者独自工作的表现；上限是强模型在正确答案上训练后的表现。两名人类研究员在大约一周内恢复了大约 23% 的差距；而智能体在累计 800 小时内恢复了 97%，并使用了大约 18,000 美元的算力。这项工作有一些注意事项；结果未能干净利落地迁移到生产规模的模型中，而且人类仍然选择了问题并创建了评分标准。但在这些界限内，智能体自行设计了每一个实验。方向设定是人类扮演的唯一有意义的角色。

“Claude 在 1-2 天的时间里，几乎没怎么帮我，就完成了这一切。我想如果 [一位初级同事] 在同一时间段内带着这样的结果回来找我，我会感到些许印象深刻。未来已来。”

Claude 在引导研究会议走向研究发现方面越来越好。我们检查了真实的 Claude Code 会话（2026 年 1 月至 3 月期间），其中 Anthropic 研究人员正与 Claude 一起处理开放式调查问题，比如弄清楚为什么训练运行不断崩溃，或者为什么模型在某个基准测试上得分很低。在每种情况下，我们都发现了一个时刻，研究人员走了一条岔路：他们追求了一个使会话偏离轨道的方向，然后才最终回到正轨。然后，我们只向各种 Claude 模型展示会话偏离轨道前的工作，并询问它们接下来会做什么。另一个能够看到会话最终结果的 Claude 则判断是 AI 还是人类提出了更好的下一步建议。⁸

因为我们特意挑选了我们知道人类选择有改进空间的时刻（n=129），所以这并非模型与人类判断的同类比较。这些时刻为我们提供了一系列现实的、具有挑战性的情境，其中正确的下一步并不明显，而人类的选择可作为随时间推移比较模型性能的有用标尺。根据这一衡量标准，我们 2025 年 11 月的最佳模型（Opus 4.5）在 51% 的情况下击败了人类选择；2026 年 4 月（Mythos Preview），这一比例增长到 64%。研究的日常工作很大程度上就是这些下一步决策的链条，这使得这成为衡量模型最终能否独立运行调查的相关指标。我们将此视为一个早期信号，表明 AI 系统正在更好地做出 AI 研究所依赖的那种判断性决策。

如何阅读此图：实践上限线衡量的是一个“理想”答案，该答案由一个能够看到整个会话（包括其结束方式）的模型编写。

“截至目前，人类的比较优势仍然在于看到更大的图景，并超越眼前任务的局限进行思考。”

Anthropic 的未来工作可能是什么样子？

证据表明，在 AI 开发过程的每一步中，人类的角色都在缩小。一旦人类和 AI 编写的代码质量持平，人类将完全停止编写代码，转而只进行审查。但如果他们不能以 Claude 生成代码的速度审查代码，那么人工审查将成为 AI 开发的瓶颈。同样，一旦 Claude 能够运行实验，问题就转向“这些实验中哪些值得运行？”简而言之：执行（即编写代码、运行实验、产生结果）现在在人类时间上几乎不花费成本，即使它在算力上仍有成本。

目前，人类比较优势的一个领域是研究品味和判断力，包括选择哪些问题重要、信任哪些结果，以及何时一种方法是死胡同。

“工作（和生活）曾经建立在人类之间微小恩惠的礼物经济之上。‘你能帮我让这个脚本运行起来吗？’……每一个都创造了一点人情债，一点相互的意识。[Claude] 更快，它不产生任何债务，但每一个都是对人类协作的一次错失的邀约。”

“在一切顺利的日子里，我不禁觉得我所做的任何事情都无关紧要，一切都被自动化了，比我任何时候都要好、都要快。但随后也有一切崩溃而我又不明白为何的日子，我意识到我已经不知道我到底在忙些什么了。”

如果我们错了呢？

对上述证据的一个自然反驳是，仍掌握在人类手中的工作——选择要解决的问题——才是最重要的。没有那种判断力，Claude 是一个能干的助手，但不是一个可以自行推动 AI 进步的系统。

目前的训练方法和架构是否能够解锁这种能力尚不清楚。但 AI 的进步很少源于“尤里卡！”时刻。AI 近代史上确实有过几次这样的时刻，比如 Transformer 架构或混合专家模型，但范式转移的思想相隔数年才会出现。在这期间，大部分进步是渐进式的：我们扩大某些东西的规模，看看哪里会出问题，修复它，然后再试一次。这正是 Claude 现在擅长的那种工作流程。爱迪生说过，天才是 1% 的灵感加上 99% 的汗水。但我们看到汗水正变得越来越自动化。越来越清楚的是，推动前沿发展的很大一部分是可以自动化的；大规模的研究进展主要是工具和资源的函数，它们决定了你能多快地运行实验、能同时运行多少个实验，以及你能多快地得到结果。

即使我们假设 Claude 永远无法获得良好的研究品位，对我们证据的保守解读仍然意味着复合加速。如果人类将大部分时间花在设定方向这一占比个位数的工作上，而 Claude 处理其余部分，那就意味着每位工程师或研究员指导的工作量比以前大得多。我们看到的证据表明，Anthropic 的员工不仅行动更快，而且覆盖的范围更广。在实践中，这意味着 AI 已经让 Anthropic 比有效 AI 工具出现之前移动得快得多。

不那么保守的解读是，关于 Claude 改进研究判断力的早期证据——尽管今天还很狭窄——表明这种能力也在提高。“研究品味”可能只是 AI 系统暂时失败、然后变得擅长的另一种 AI 能力。我们在其他定性技能上也看到了类似的模式，比如 AI 系统能够解释笑话为什么好笑、展示心智理论以及解决语言谜题。

可能的未来

接下来会发生什么取决于两件事：趋势是否持续，以及如果持续，我们选择做什么。我们至少可以想象三种未来场景：

趋势停滞，但当今的 AI 能力被广泛扩散。 本文列举了许多指数级轨迹。但这些轨迹实际上可能是 S 曲线。我们可能正接近曲线的拐点，规模回报递减，线条变直，然后趋于平缓。区分合格研究员和伟大研究员的那种判断力，可能是一种无法通过扩大训练输入（如算力和数据）来获得的能力。如果是这样，突破这一瓶颈将需要一个新的想法，比如一种取代所有当前前沿模型使用的 Transformer 架构的架构方法。

或者，AI 进展的约束可能在供应链而非模型本身：推进和扩散前沿可能需要比现有更多的能源和算力。芯片制造、电网扩展或互连带宽的步伐可能是约束因素，而非智能本身。我们也不能排除 AI 生态系统遭遇外源性冲击的可能性，比如算力或电力的供应突然减少，这两种情况都会减缓进展并使实验室的前瞻性投资更加昂贵。或者我们可能没有预见到其他阻碍进展的障碍。

即使模型能力冻结在今天的水平，我们也预计世界将发生重大变化。Project Glasswing 就是一个早期迹象：在最初的几周内，Mythos Preview 在全球最重要的系统中发现了超过一万个高严重性和关键严重性的软件漏洞——足以让网络防御的瓶颈已经从发现漏洞转移到足够快地修补它们。而且我们仍处于将当今模型扩散到更广泛经济的早期阶段，一家 100 人的公司可以越来越多地完成 1000 人公司的工作，因为每个员工都将坐拥一个由智能体组成的金字塔。

我们将此场景纳入考虑是为了完整性，但我们不认为它很可能发生。我们能够衡量的每一种能力，包括那些感觉“软性”的能力，如代码质量和在开放式任务上的成功率，迄今为止都遵循着同一条曲线。我们尚未看到那条曲线弯曲。在我们考虑的三种未来中，这一种会给政府和社会最多的适应时间。我们更担心接下来的两种，它们会移动得更快，留下的准备空间要小得多。

AI 实验室继续看到复合效率增益。 在这个场景中，AI 开发在很大程度上实现自动化，但人类继续设定研究方向并判断结果。随着时间的推移，使用 AI 系统的组织将变得更加高效，因此我们可以预期该组织中每个人的生产力乘数将显著增加。100 人的公司可以完成 10,000 人或 100,000 人组织的工作。这将彻底改变知识工作和政府服务，但也可能被用于有害目的，从对全体人口的威权监控，到针对每个人量身定制并以任何人类团队都无法匹配的规模运行的影响力操作。像 Anthropic 这样的公司中人类的角色将发生转变。人们将与 AI 系统合作以扩大研究并产生新的见解，共同构建所需的系统来验证 AI 输出的可信度。

我们在此列出的证据表明，我们很可能正走向这个场景。但加速流程的一部分通常只会将瓶颈转移到其他地方：整体速度受到尚未加速部分的限制。在计算中，这被称为阿姆达尔定律，同样的逻辑也适用于组织。Anthropic 已经遇到了阿姆达尔定律的一个特征：随着我们开始在组织内推送更多代码，人工代码审查已成为一个新的瓶颈。

我们也在工程之外遇到了这种摩擦。由于 Anthropic 员工与高性能模型合作，新想法、新举措、新工具和模拟实验出现了爆炸式增长——远远超出了我们所能跟进的能力。组织发现并解决这些瓶颈的速度可能是一种随时间推移而提高的技能，并且它可能成为任何组织最重要的技能。

AI 系统本身变得能够进行完全的递归自我改进，并开始构建它们的继任者。 如果推进能力的技术趋势持续下去，并且 AI 系统能够获得蕴含变革性人类智慧的能力，那么 AI 系统能够设计并精炼自身是合理的。

在这个世界里，AI 开发的进展速度完全由算力的可用性（或算法训练和推理中各种效率的发现速度）决定。人类在其开发中的作用大大减弱，很可能将我们的大部分精力转移到监督、验证和确认一个由 AI 系统运行的不断扩大的“虚拟实验室”上。我们预计，具备自动化 AI 研究和开发能力的系统将拥有可转移到科学其他领域的技能，使它们开始彻底改变其他领域。

对齐问题在这个未来如何得到解决——或者得不到解决——是我们最不确定的事情。模型可能被证明具有充分的对齐能力，足以发现并实现我们尚未达到的新颖解决方案。它们也可能足够明智，在必要时停止开发。或者，当今模型中存在的罕见错位现象可能在模型构建其继任者时复合叠加，变得更加频繁但也更难以理解，直到我们失去对它们的控制。有可能我们无法构建、整合并验证那些我们需要理解我们实际处于哪种趋势线所需的工具。

我们对这个世界会是什么样子没有很好的直觉，因为我们的经济目前是由人类和人类建造的工具驱动的。就其本质而言，一个由快速递归自我改进驱动的世界可能会被自我改进模型所主导，因为其能力完全遮蔽了人类的能力，并且该模型在整个更广泛的经济中扩散。很难预测如果人类劳动不再具有竞争力，经济会是什么样子。

即使模型开发完全自动化并递归进行，我们也无法预测这对大多数人类的日常生活意味着什么。阿姆达尔定律在这里也适用。递归智能可能很快在某些领域实现《温柔之邦》中概述的许多好处。我们预计具身智能（即机器人技术）可能紧随递归智能之后，并遵循类似的路径，以递减的成本获得递增的回报。更强大的智能可能帮助我们更快地在世界物理层面构建事物，运行更高效的救命药物临床试验，并发展出新型的协调形式。

但仅仅实现递归改进并不意味着工业生产方式、社会组织或市场功能的立即改变。更多的智能无法在数十年的使用中了解药物的作用，无法在宪法规定之前举行选举，也无法在一个周末将陌生人变成老朋友。对大多数人来说，对这个未来的切身感受仍将由瓶颈设定，即使上游实验室以计算速度运行。递归智能以越来越快的速度构建自身，与由人类、关系和治理构成的世界相碰撞，这是我们这个未来无法预测的另一部分。

我们应该做什么？

如果有可能有效地减缓这项技术的发展，以便给自己更多时间来处理其巨大的影响，我们认为这可能是件好事。但如果放缓只是让最不谨慎的参与者在技术上赶上，可能会让每个人都更不安全。如果没有全球协调机制，公司和政府将不得不在竞争和地缘政治压力下就安全问题做出艰难的决定。

我们相信，让世界拥有放缓或暂时暂停前沿 AI 开发的选项，以使社会结构和对齐研究能够跟上技术进步的步伐，这对世界是有益的。Anthropic 研究所将开展研究——与许多其他机构合作——并采取行动，帮助建立可信的放缓或暂停所需的系统。这些系统将使前沿 AI 开发者能够核实全球范围内的其他人确实已经停止或放缓，并且恶意行为者无法利用协调放缓的名义秘密取得领先。如果存在这样的系统，我们预计我们也会放缓或暂时暂停，前提是在或接近前沿的其他开发者也以可验证的方式这样做。

一个有意义的放缓或暂停需要多个位于或接近前沿、位于多个国家的资金充足的实验室，同意在相同条件下停止。它还需要每个实验室都能核实其他实验室确实已经停止。由于 AI 系统的独特特性，这种军备控制问题的可检测性（低于可验证性的标准）要素比其他技术更具挑战性。训练运行比导弹发射井更容易隐藏，其输入是通用的，而悄悄背叛的动机是巨大的，因为谁在别人暂停时继续，谁就可能继承领先地位。一个可信的暂停还必须明确触发它的条件、解除它的条件以及裁决者是谁。

原则上这不一定是不可能的——世界已经为其他复杂技术建立了核查机制（例如《中导条约》）——但这些机制花了数十年时间才建立起基础设施和信任。我们没有那么长的时间。相比之下，一个实验室的单方面暂停可以立即实现，但成效要小得多：它只会改变领跑者是谁，但不会创建目前缺失的更广泛的审议过程。

在未来几个月，我们将组织一系列对话，让政策制定者、研究人员、公民社会和其它 AI 公司参与进来，帮助解答本文提出的一些问题，特别是围绕完全的递归自我改进以及如何为协调和审议创造更好的选项。我们将公布从中产生的成果。共同调查这些问题的窗口就在当下，AI 公司以外的人应该参与到这一审议中来。

内容很多，值得深度思考🤔

看不完可以先收藏、点赞、关注，转发给爱学习的朋友