本文探讨的技术趋势表明,AI 系统在未来几年将变得更加强大。这些趋势意义深远。能够自我构建的 AI 将是技术史上的一项重大突破,它将在科学、医疗等诸多领域为世界带来巨大的福祉。然而,完全递归式的自我改进也可能增加人类失去对 AI 系统控制的风险。如果系统能够完全构建自身的后续版本,那么我们如何保障系统安全、监控系统运行以及塑造系统行为都将变得至关重要。
来自外部世界的证据
AI 模型的改进速度正在加快。它们能够独立可靠完成的任务时长大约每四个月翻一番,而此前的趋势是每七个月翻一番。2024 年 3 月,Claude Opus 3 可以完成人类大约需要四分钟才能完成的软件任务。一年后,Claude Sonnet 3.7 可以完成大约一个半小时才能完成的任务。又过了一年,Claude Opus 4.6 可以完成需要 12 小时才能完成的任务。如果这一趋势持续下去,那么今年 AI 系统就能完成熟练人员需要几天 (才能) 完成的任务。到 2027 年,AI 系统或许能够完成人类需要几周才能完成的任务。
Claude 编写的代码「很好」,而且还在不断改进。 「好代码」包含两层含义:它能正常运行,并且编写方式便于其他工程师理解和在此基础上进行扩展。关于第一点,证据显而易见。一年来,Anthropic 的员工纠正、调整或接管 Claude 任务的频率一直在稳步下降,即使是最复杂、最开放的任务也不例外。这意味着,对于那些没有明确规范的问题,工程师也不确定答案应该是什么样子。这一点可以从 Claude 在不同难度任务上的成功率随时间的变化中看出,如下图所示。Claude 编写的代码确实有效。
会话成功与否由 Claude 判断器决定;如果 Claude Code 代理在无需纠正的情况下明显成功完成用户任务,则该会话被视为成功。工作负载的变化可能会导致成功率出现短期波动。
第二个标准是编写其他工程师能够理解并在此基础上进行扩展的代码。在这方面,人类与 AI 之间的差距依然存在,但正在迅速缩小。Anthropic 的员工之间尚未达成完全共识,但许多人认为,到 2025 年底,Claude 编写的代码质量仍然不如 Anthropic 的人类编写的代码,而如今两者的质量大致相当。我们预计一年内情况会有所改善。
这改变了 Anthropic 审查自身代码的方式。现在,我们代码库的每一次变更都会由自动化的 Claude 代码审查器进行检查,查找漏洞、安全缺陷和其他缺陷,然后再进行合并。利用这个工具,我们进行了回顾性分析,发现如果每次代码变更都由自动化的 Claude 代码审查器进行审查,就能在 claude.ai 上过去发生的事件中发现大约三分之一的漏洞,避免它们进入生产环境。编写这些代码的工程师是构建此类系统方面世界上最优秀的工程师之一。而 Claude 现在正在发现他们遗漏的错误。
2025 年末,Claude 编写的代码在 Anthropic 公司的表现略逊于人工编写的代码,如今两者基本持平,我们预计一年内 Claude 的代码将明显优于人工编写的代码。
Claude 擅长运行实验,以达成他人设定的目标。每次 Anthropic 发布新模型时,我们都会进行相同的测试:我们给 Claude 一段用于训练小型 AI 模型的代码,并要求它在通过相同正确性检查的前提下,尽可能地提高代码的运行速度。目标和成功指标都是预先设定的,因此 Claude 的工作就是通过重写代码、运行、计时并重复这个过程来找到速度提升点。这相当于一个微缩版的实验研究循环。2025 年 5 月,Claude Opus 4 的平均速度比初始代码提升了约 3 倍。到 2026 年 4 月,Claude Mythos Preview 的速度提升了约 52 倍。而对于校准工作,一位经验丰富的研究人员需要 4 到 8 个小时才能达到 4 倍的速度提升。在研究工作流程的这一部分 —— 优化明确定义的实验步骤 ——Claude 在不到一年的时间里,就从超级得力助手成长为超人。
Claude 在自主提出实验方面越来越出色。2026 年 4 月,Anthropic 发布了 Claude 首次完整运行开放式研究项目的演示。Claude 驱动的智能体被赋予一个 AI 安全领域的开放性问题 —— 简而言之,一个较弱的模型能否可靠地监督一个较强的模型? —— 并被赋予解决该问题的自由。这包括提出假设、测试假设、与并行智能体共享结果并迭代。
Claude 在短短一两天内就完成了所有这些工作,我几乎没怎么帮他。我想,如果(一位资历较浅的同事)在同样的时间内能拿出这样的成果,我会略感惊讶。未来已来。
Claude 在引导研究会议朝着研究成果方向发展方面越来越出色。我们分析了 2026 年 1 月至 3 月期间真实的 Claude Code 会议,在这些会议中,Anthropic 的研究人员与 Claude 合作解决开放式的调查问题,例如找出训练运行不断崩溃的原因,或者模型在基准测试中得分低的原因。在每个案例中,我们都发现研究人员偏离了正轨:他们尝试了一个方向,导致会议偏离了轨道,但最终还是回到了正轨。然后,我们向不同的 Claude 模型展示了会议偏离轨道之前的工作,并询问它们接下来会怎么做。另一个能够看到会议最终结果的 Claude 模型则判断 AI 还是人类提出的下一步建议更优。
由于我们特意选取了 129 个时刻(n=129),这些时刻中我们已知人类的选择还有改进的空间,因此这并非模型与人类判断的直接比较。这些时刻为我们提供了一系列真实且具有挑战性的情境,在这些情境中,正确的下一步并不明显,而人类的选择则可作为衡量模型性能随时间变化的有效标尺。以此标准衡量,我们在 2025 年 11 月的最佳模型(Opus 4.5)在 51% 的情况下优于人类的选择;到 2026 年 4 月(Mythos Preview),这一比例上升至 64%。日常研究工作很大程度上是由一系列此类下一步决策构成的,因此,这可以作为衡量模型最终独立开展研究能力的重要指标。我们认为这一结果是一个早期信号,表明 AI 系统在做出 AI 研究所依赖的那种判断方面正变得越来越出色。
实际上限线衡量的是由能够看到整个会话(包括会话的结束方式)的模型所写的「理想」答案。
就目前而言,人类的比较优势仍然在于能够把握全局,超越眼前任务的局限去思考问题。
Anthropic 未来的工作模式会是什么样的?
证据表明,在 AI 开发过程中,人类的角色正在逐步缩小。一旦人类编写的代码和 AI 编写的代码质量达到同等水平,人类将完全停止编写代码,而只负责代码审查。但如果人类审查代码的速度无法与 Claude 生成代码的速度相提并论,那么人工审查将成为 AI 开发的瓶颈。同样,一旦 Claude 能够运行实验,问题就变成了「哪些实验值得运行?」简而言之:执行这些操作(即编写代码、运行实验、生成结果)现在几乎不需要耗费任何人力,即使它仍然需要计算资源。
对上述证据的一个自然反驳是,目前仍由人类主导的工作 —— 选择要解决的问题 —— 才是最重要的。如果没有这种判断,Claude 或许能成为一个称职的助手,但它本身并不能推动 AI 的发展。
目前尚不清楚现有的训练方法和架构是否能够释放这种潜力。但 AI 的发展很少依靠「灵光一闪」的时刻。AI 的近期发展史上确实出现过一些这样的时刻,例如 Transformer 架构或混合专家模型,但颠覆性的想法往往需要数年才能出现。在此期间,大多数进展都是渐进式的:我们扩大规模,发现问题,修复问题,然后再次尝试。这正是 Claude 现在擅长的工作流程。爱迪生曾说过,天才是 1% 的灵感加上 99% 的汗水。但我们看到,汗水正变得越来越自动化。越来越明显的是,许多推动前沿发展的过程都可以自动化;大规模研究的进展主要取决于工具和资源,它们决定了实验运行的速度、同时运行的实验数量以及获得结果的速度。
即使我们假设 Claude 的研究品味始终不佳,保守地解读现有证据仍然意味着研究进展呈复合加速趋势。如果人类将大部分时间用于仅占工作量个位数的决策方向制定工作,而其余工作则由 Claude 负责,这意味着每位工程师或研究人员的工作量都远超以往。我们看到的证据表明,Anthropic 的员工不仅工作效率更高,而且工作范围也更广。实际上,这意味着 AI 已经使 Anthropic 的运作速度远超高效 AI 工具出现之前。
较为宽松的解读是,Claude 早期展现出的研究判断力提升 —— 尽管目前还比较有限 —— 表明其整体能力也在不断增强。「研究品味」或许只是 AI 系统在一段时间内难以掌握,但最终会逐渐擅长的另一种能力。我们已经在其他定性技能方面观察到了类似的模式,例如 AI 系统能够解释笑话的笑点、展现心智理论以及解决语言谜题。
1. 虽然趋势停滞,但如今 AI 的能力已广泛普及。本文列举了许多指数级增长的轨迹。然而,这些轨迹实际上可能呈现 S 形曲线。我们或许正接近曲线的拐点,此时规模收益递减,曲线逐渐变直,最终趋于平缓。区分优秀研究人员和卓越研究人员的关键可能在于某种能力,而这种能力无法通过扩大计算和数据等训练输入规模来实现。如果是这样,突破这一瓶颈就需要一种新的思路,例如一种能够取代当前所有前沿模型所使用的 Transformer 架构的架构方法。
或者,AI 进步的制约因素可能在于供应链,而非模型本身:推进和推广前沿技术可能需要比目前更多的能源和计算能力。芯片制造速度、电网扩展速度或互连带宽可能才是制约因素,而非 AI 本身。我们也不能排除 AI 生态系统受到外部冲击的可能性,例如计算资源或电力供应突然减少,这会显著减缓发展速度,并增加实验室未来投资的成本。或者,我们可能没有预料到其他一些阻碍发展的因素。
2. AI 实验室的效率持续提升。在这种情况下,AI 的开发将高度自动化,但人类仍然负责设定研究方向和评估结果。随着时间的推移,使用 AI 系统的组织将变得更加高效,因此我们可以预期,组织中每个人的生产力都将得到显著提升。100 人的公司就能完成 1 万人甚至 10 万人的组织的工作量。这将彻底改变知识工作和公共服务,但也可能被用于有害的目的。人们将与 AI 系统合作,扩大研究规模并产生新的见解,并共同构建验证 AI 输出可信度所需的系统。
3. AI 系统本身将具备完全递归式自我改进的能力,并开始构建其后继者。如果技术进步的趋势持续下去,AI 系统能够发展出人类变革性创造力所固有的能力,那么 AI 系统就有可能进行自我设计和改进。
在这样的世界里,AI 发展的步伐将完全取决于 AI 系统所需的计算资源(或发现算法训练或推理中各种效率提升的速度)。人类在 AI 系统发展中的作用将大幅降低,我们的大部分精力可能会转移到对不断扩展的、由 AI 系统运行的「虚拟实验室」进行监督、验证和确认。我们预期,能够进行自动化 AI 研发的系统将拥有可以迁移到其他科学领域的技能,从而使它们能够开始革新其他领域。未来
我们认为,如果世界可以选择放缓或暂时中止前沿 AI 的研发,从而使社会结构和协调研究能够跟上技术发展的步伐,这对世界大有裨益。Anthropic 研究所将与众多机构合作开展研究,并采取行动,帮助构建可信的放缓或中止研发所需的系统。这些系统将使前沿 AI 开发者能够验证全球其他开发者是否确实已停止或放缓研发,从而防止恶意行为者利用协同放缓的契机秘密抢占先机。如果此类系统存在,我们预计,如果其他处于或接近前沿领域的开发者也以可验证的方式放缓或暂时中止研发,我们也会采取同样的措施。
要真正实现有效放缓或暂停,需要多个位于或靠近前沿阵地、资源充足的实验室在多个国家达成一致,在相同条件下停止研发。此外,每个实验室都必须能够验证其他实验室是否确实停止了研发。由于 AI 系统的独特特性,这种问题的可检测性(标准低于可验证性)比其他技术更具挑战性。训练运行很容易隐藏,其输入数据是通用的,而且悄悄叛变的动机非常巨大,因为在其他人暂停研发的情况下继续研发的实验室可能会获得领先地位。一个可信的暂停协议还必须明确规定触发暂停的条件、解除暂停的条件以及最终的裁决机构。
Anthropic 称未来几个月将组织一系列对话,邀请政策制定者、研究人员、民间社会组织和其他 AI 公司参与,共同探讨本文提出的一些问题,特别是关于完全递归式自我改进以及如何创造更佳的协调和协商机制。该公司表示,现在正是共同探讨这些问题的良机,AI 公司以外的人士也应参与其中。
更大的图景:整个行业都在加速
Anthropic 的数据并非孤例,它是一个正在成形的行业趋势的一个截面。
就在本月,一家名为 Recursive 的 AI 研究公司从隐身模式浮出水面,宣布完成 6.5 亿美元融资,估值 46.5 亿美元。这家公司由来自 OpenAI、Google DeepMind、Meta AI 的前研究负责人联合创立,明确将「开发能够自主改进自身的 AI 系统」作为公司使命,核心方向正是递归自我改进。