AI写代码比人类好,下一步是什么?Anthropic给出了答案

当AI自我构建，Anthropic在递归自我改进方面的进展及其影响

在人工智能发展的大部分历史中，人类推动着其开发周期的每一步。但在Anthropic，我们正将越来越多的AI开发工作交由AI系统自身完成，这显著加快了我们的工作进度。

这一趋势若持续推进，再辅以充足的算力，终将催生能够完全自主设计并开发自身下一代版本的AI系统。这一过程被称为递归自我改进。我们目前尚未达到这一阶段，递归自我改进也并非必然发生。但它的到来可能比大多数机构准备好的时间要早得多。

Anthropic研究院结合公开基准测试数据与Anthropic内部此前未公开的数据表明，AI已经在加速AI系统自身的开发进程。仅举一例：如今，Anthropic工程师每季度平均交付的代码量是2021-2025年期间的8倍。

本文探讨的技术趋势表明，未来几年AI系统的能力将实现大幅跃升。这些趋势影响深远。能够自我构建的AI将成为技术史上的重大里程碑——它有望在科学、医疗等诸多领域为人类带来巨大福祉。但完全的递归自我改进也可能增加人类失去对AI系统控制的风险。如果系统能够完全自主构建下一代版本，那么我们保障其安全、监控其运行、引导其行为的方式就变得至关重要。

2021–2023，初代Claude的诞生

早期，Anthropic的工作模式与其他科技公司并无二致：员工们在笔记本电脑上编写代码和文档。

2023–2025，聊天机器人辅助阶段

人们使用早期聊天机器人协助完成部分开发流程，例如生成简短的代码片段，再将输出复制到文本编辑器中。

2025–2026，代码智能体阶段

随着智能体能力的提升，它们能够独立编写和编辑代码，有时甚至可以完成整个文件的开发。

2026年6月，自主智能体阶段

智能体现在可以自主运行代码，并将耗时数小时的工作委派给其他智能体。

20XX？（未来），闭环形成阶段

未来，智能体可能具备自主构建和训练模型的能力。若这一设想成为现实，未来版本的Claude将能够由Claude自身持续迭代优化。

来自外部世界的证据

AI模型的能力提升速度正在不断加快。它们能够独立可靠完成的任务时长，已从此前每7个月翻一番，提升至约每4个月翻一番。2024年3月，Claude Opus 3能够完成人类约4分钟就能做完的软件任务；一年后，Claude Sonnet 3.7可以处理耗时约一个半小时的任务；又过了一年，Claude Opus 4.6已能胜任12小时的工作任务¹。若这一趋势持续，今年AI系统或将能够完成熟练人类需要数天才能做完的工作。到2027年，AI系统有望具备处理人类耗时数周任务的能力。

在代码编写和科研基准测试中，同样呈现出这一加速趋势。基准测试用于衡量模型在特定领域的性能，当模型的表现接近100%时，我们称该基准测试已被“饱和”²。SWE-bench是衡量真实世界软件工程能力的标准测试：它向模型提供真实的开源代码库和实际的漏洞报告，要求模型编写代码修复问题并通过项目自身的测试。仅用两年时间，模型在该基准测试中的得分就从个位数的低水平提升至饱和状态。

CORE-Bench用于测试模型复现现有研究成果的能力，这是其开展原创研究的前提。该测试向AI模型提供已发表论文背后的代码和数据，要求模型重新运行所有流程并确认能够复现论文结果。2024年，AI系统复现研究结果的成功率约为20%，而15个月后，该基准测试也已被饱和。负责运行长时任务基准测试的机构METR发现，Claude Mythos Preview能够连续工作“至少”16小时，其表现已达到“METR在未设计新任务情况下所能测量的上限”。

公开基准测试能够充分反映这些系统的能力，但无法揭示AI系统对加速AI自身开发进程的实际影响。要了解这一点，我们需要来自Anthropic等AI公司内部的直接证据。

来自Anthropic内部的证据

构建前沿模型主要涉及两大类工作：一是工程工作，包括编写代码、搭建基础设施以及监督模型训练；二是研究工作，包括确定要开展的实验、解读实验结果以及规划下一步的研究方向。

在工程和研究两大领域，情况高度一致。在工程方面，Claude能够接手描述不明确的问题并自行找到解决方案；人类只需设定目标，无需再提供具体方法。在研究方面，对于执行明确指定的实验，Claude的能力已经能够媲美甚至超越熟练的人类研究人员。然而，在工程和研究中需要运用判断力来选择目标时，Claude与人类仍存在较大差距。这正是当前AI与未来能够自主设计下一代系统的AI之间的核心差距。

在Anthropic，员工随着经验的积累，通常会承担更具开放性和重要性的任务。入职初期，他们执行他人明确指定的任务，例如“导出按钮无法工作，请修复”；积累一定经验后，他们会被赋予目标并自行设计实现方案，例如“调查网络在高负载下变慢的原因”；而最高级别的员工则需要决定哪些问题值得投入精力解决，例如“团队下一季度应该开发什么产品”。我们可以通过Anthropic的内部数据，了解Claude在处理这些不同类型任务方面的进展。

Claude编写了Anthropic相当大比例的代码。截至2026年5月，我们合并到Anthropic代码库中的代码，超过80%由Claude撰写³。在2025年2月Claude Code推出研究预览版之前，这一比例仅为个位数的低水平。这一转变也体现在每位工程师的产出量上。在Anthropic成立的前四年（2021-2024年），每位工程师每天合并的代码行数保持稳定；2025年，当Claude开始能够运行代码而非仅仅提供代码建议供工程师复制粘贴时，这一数值开始攀升；2026年，随着模型能够在更长时间范围内自主工作，增长斜率进一步变陡。下图展示了这两个拐点。2026年第二季度，普通工程师每天合并的代码量是2024年的8倍⁴。这是因为大部分代码由Claude编写，工程师的角色转变为指导和审核，而非亲自敲代码。

需要说明的是，代码行数是一个不够完美的衡量指标，因为它更侧重数量而非质量。因此，2026年第二季度每位工程师每天8倍的代码行数，几乎可以肯定高估了实际的生产力提升幅度。尽管如此，它依然清晰地表明了开发速度的加快。在Anthropic，我们不会根据员工编写的代码行数进行考核；团队成员产出更多代码，仅仅是因为他们使用AI系统来完成了更多的编码工作。

代码行数的增长与员工对生产力大幅提升的主观感受一致。2026年3月，我们对Anthropic各研究团队的130名员工进行了一项调查，中位数受访者估计，在他们原本就会开展的同类项目中，使用Mythos Preview后的产出量是不使用任何AI模型时的约4倍⁵。我们认为3月份实际的提升幅度可能略低一些⁶。尽管如此，这一整体结论是可信的，也与我们的其他观察结果相符：Anthropic相当一部分技术人员完成核心工作的速度，比没有AI辅助时快了数倍。

我们还发现，Anthropic的员工正在使用Claude完成那些原本根本不可能开展的工作，例如构建探索性工具和处理长期积压的代码清理任务。例如，2026年4月，Claude提交了800多个修复补丁，将某一类API错误的发生率降低了千倍。负责监督Claude完成这项工作的工程师估计，人类完成同样的工作需要四年时间；修复他人编写的代码漏洞既缓慢又繁琐，而且人类很难同时记住如此多不熟悉的上下文信息。

“大约一年前，我开始全面拥抱Claude辅助开发。这是一段不可思议的经历，我已经有大约5个月没有亲自写过任何代码了。”
——Anthropic员工*

Claude编写的代码质量“合格”且在持续提升。“优质代码”包含两层含义：一是能够正常运行，二是编写方式便于其他工程师理解和在此基础上进行开发。关于第一个标准，证据十分明确。过去一年，Anthropic员工需要纠正、重新引导Claude或中途接管其任务的比例一直在稳步下降，即便是在处理最复杂、最具开放性的任务时也是如此。这类任务没有明确的规范说明，工程师自己也不确定最终的解决方案是什么。下图展示了Claude在不同难度任务上的成功率随时间的变化趋势，清晰地印证了这一点。Claude编写的代码能够可靠运行。

图表解读：会话成功率由Claude评判员判定；若Claude Code智能体无需任何修正即可明确完成用户的任务，则该会话被视为成功。工作负载的变化可能导致成功率出现短期波动。

在最具开放性的任务上，Claude的成功率在2026年5月达到了76%，六个月内提升了50个百分点。举一个该难度级别的任务例子：一次常规升级导致数万个训练任务崩溃。一位工程师仅向Claude提供了一些文字说明和集群访问权限，就让它处理这一突发事故。Claude逐一检查正在运行的任务，逐个测试环境设置，最终定位到了导致崩溃的那个隐蔽的调试标志，可靠地复现了问题并确认了修复方案。Claude仅用约两个小时就完成了通常需要两到三天的工作。

第二个标准是编写的代码便于其他工程师理解和扩展。在这方面，人类与AI之间仍存在差距，但差距正在迅速缩小。Anthropic内部对此尚未达成完全共识，但许多员工认为，2025年底Claude编写的代码质量仍不如Anthropic工程师编写的代码，而如今两者已基本持平。我们预计，一年内Claude编写的代码质量将超越人类。

这一变化也改变了Anthropic的代码审核方式。如今，我们代码库中的所有待合并变更，都会先由自动化的Claude审核员进行检查，查找漏洞、安全缺陷和其他问题。我们使用该工具进行了一项回顾性分析，结果发现，如果对代码库的每一次变更都进行Claude自动化审核，那么claude.ai过去发生的事故中，约三分之一的漏洞在上线前就能被发现。而编写这些代码的工程师，都是全球顶尖的AI系统构建专家。现在，Claude能够发现他们遗漏的错误。

“2025年底，Claude编写的代码质量略逊于Anthropic工程师编写的代码；如今两者已基本持平；我们预计，一年内Claude编写的代码质量将全面超越人类。”

Claude擅长执行他人设定好目标的实验。每次Anthropic发布新模型时，我们都会进行同一项测试：给Claude一段用于训练小型AI模型的代码，要求它在保证通过所有正确性检查的前提下，尽可能提升代码的运行速度。目标和成功指标都是预先确定的，因此Claude的工作就是通过重写代码、运行代码、计时并反复迭代来实现加速。这是实验研究循环的一个微型版本。2025年5月，Claude Opus 4平均能将初始代码的运行速度提升约3倍；到2026年4月，Claude Mythos Preview已能实现约52倍的加速。作为参考，一位熟练的人类研究人员需要4到8小时才能实现4倍的加速⁷。在研究工作流的这一环节——即优化明确定义的实验步骤——Claude在不到一年的时间里，从“非常有用”进化到了“超越人类”的水平。

“如今的工作模式大致是：‘人类提出想法，模型能够以比以前快一个数量级的速度实现、测试和评估这些想法。’”

Claude在自主提出实验方案方面的能力也在不断提升。2026年4月，Anthropic首次展示了Claude端到端完成开放性研究项目的能力。我们向基于Claude的智能体提出了一个AI安全领域的开放性问题——大致是“较弱的模型能否可靠地监督较强的模型？”，然后让它们自行解决。这一过程包括提出假设、验证假设、与并行运行的其他智能体分享发现并反复迭代。该任务有明确的性能“下限”和“上限”：下限是弱监督模型单独工作的表现，上限是强模型在正确答案训练下的表现。两位人类研究人员用了约一周时间，仅弥补了约23%的性能差距；而这些智能体累计运行800小时，消耗约1.8万美元的算力，弥补了97%的差距。这项研究存在一些局限性：其结果无法直接迁移到生产级规模的模型上，而且问题的选择和评分标准的制定仍由人类完成。但在这些限制范围内，所有实验都是由智能体自主设计的。人类唯一有意义的角色就是设定研究方向。

“在1-2天的时间里，Claude几乎没怎么需要我的帮助就完成了所有这些工作。我想，如果一位初级同事能在同样的时间内拿出这样的成果，我都会觉得相当不错。未来已来。”

Claude在引导研究会话走向成果方面的能力也在不断增强。我们分析了2026年1月至3月期间的真实Claude Code会话记录，这些会话中Anthropic的研究人员正与Claude合作解决开放性的探究性问题，例如找出训练任务持续崩溃的原因，或者模型在基准测试中得分偏低的原因。在每一个案例中，我们都找到了研究人员走弯路的时刻：他们选择了一个错误的方向，导致会话偏离正轨，之后才重新回到正确的轨道上。然后，我们只向不同版本的Claude模型展示会话偏离正轨之前的工作内容，询问它们下一步会怎么做。再由另一个能够看到会话最终结果的独立Claude，评判AI和人类谁提出的下一步方案更好⁸。

由于我们特意选择了那些人类的选择存在改进空间的时刻（共129个），因此这并非模型与人类判断力的对等比较。这些时刻为我们提供了一系列真实且具有挑战性的场景——在这些场景中，正确的下一步并不明显，而人类的选择则成为了衡量模型随时间进步的有用标尺。根据这一衡量标准，2025年11月我们最好的模型（Opus 4.5）在51%的情况下提出的方案优于人类；到2026年4月（Mythos Preview），这一比例上升至64%。日常的研究工作在很大程度上就是由这一系列的下一步决策组成的，因此这一指标能够有效衡量模型最终自主开展研究的能力。我们认为这一结果是一个早期信号，表明AI系统正在越来越擅长做出AI研究所依赖的这类判断。

图表解读：实际上限线代表能够看到整个会话（包括最终结果）的模型所给出的“理想”答案。

“目前人类的比较优势仍然在于能够把握全局，跳出眼前任务的局限进行思考。”

Anthropic未来的工作模式会是什么样？

现有证据表明，在AI开发流程的每一个环节，人类的角色都在逐渐缩小。一旦人类与AI编写的代码质量达到持平，人类将完全停止编写代码，转而只负责审核工作。但如果人类审核代码的速度跟不上Claude生成代码的速度，人工审核就会成为AI开发的瓶颈。同样，一旦Claude能够自主运行实验，问题就会转变为“哪些实验值得开展？”。简而言之：如今，“执行”环节（即编写代码、运行实验、生成结果）几乎不再消耗人类的时间，尽管它仍然需要消耗算力成本。

目前，人类的一个比较优势领域是研究品味和判断力，包括选择哪些问题值得研究、哪些结果值得信赖，以及判断某种方法何时走入死胡同。

“过去，工作（以及生活）建立在人与人之间互相帮忙的‘人情经济’之上。‘能帮我把这个脚本跑起来吗？’……每一次求助都会产生一点人情债，也增进一点彼此的了解。Claude更快，而且不会产生任何人情债，但每一次使用它，我们都失去了一次与人协作的机会。”

“在一切都运行顺利的日子里，我忍不住会想，我做的一切都毫无意义，所有事情都被自动化了，而且比我做得更好、更快。但也有一些日子，所有东西都出了问题，我却搞不懂为什么，这时我才意识到，我已经完全不知道自己一直在做什么了。”

如果我们的判断错了怎么办？

对于上述证据，一个很自然的反驳是：目前仍由人类掌控的工作——即选择研究哪些问题——才是最重要的。没有这种判断力，Claude只是一个能干的助手，而无法成为推动AI进步的主导力量。

目前尚不清楚现有的训练方法和架构能否解锁这种能力。但AI的进步很少依赖“灵光一现”的时刻。在AI的近代史上，确实出现过几次这样的突破，例如Transformer架构和混合专家模型，但这些范式级的创新往往相隔数年。在两次突破之间，大多数进步都是渐进式的：我们扩大规模，发现问题，修复问题，然后再次尝试。而这正是Claude现在最擅长的工作流程。爱迪生说过，天才是1%的灵感加99%的汗水。但我们看到，“汗水”部分正越来越多地被自动化。越来越明显的是，推动前沿技术进步的大部分工作都是可以自动化的；大规模的研究进展主要取决于工具和资源，这些因素决定了你能以多快的速度运行实验、同时运行多少个实验，以及能以多快的速度得到结果。

即使我们假设Claude永远无法具备良好的研究品味，对现有证据的保守解读仍然表明，AI开发将呈现复利式加速。如果人类将大部分时间花在仅占个位数比例的方向设定工作上，而其余工作都由Claude完成，这意味着每位工程师或研究人员能够主导的工作量将远超以往。我们观察到的证据表明，Anthropic的员工不仅工作速度更快，而且能够覆盖更广泛的领域。实际上，这意味着AI已经让Anthropic的发展速度比高效AI工具出现之前快得多。

而不那么保守的解读是，关于Claude研究判断力提升的早期证据——尽管目前还很有限——表明这一能力也在不断进步。“研究品味”可能只是AI系统又一项先不擅长、后来逐渐掌握的能力。我们在其他定性技能上已经看到了类似的模式，例如AI系统能够解释笑话为什么好笑、展现心智理论能力以及解决语言谜题。

可能的未来

接下来会发生什么，取决于两个因素：这一趋势是否会持续，以及如果持续的话我们会选择怎么做。我们可以设想至少三种未来场景：

趋势停滞，但当前AI能力得到广泛普及

本文展示了许多指数级增长的曲线，但这些曲线实际上可能最终会变成S型曲线。我们或许正在接近曲线的拐点，此时规模收益开始递减，增长速度放缓，最终趋于平稳。区分普通研究员和优秀研究员的判断力，可能是一种无法通过扩大算力和数据等训练投入来获得的能力。如果是这样，突破这一瓶颈将需要全新的思路，例如一种能够取代当前所有前沿模型所使用的Transformer架构的新架构。

或者，AI进步的核心约束可能来自供应链而非模型本身：推进和普及前沿技术可能需要比现有更多的能源和算力。芯片制造速度、电网扩容速度或互联带宽可能会成为限制因素，而非智能本身。我们也不能排除AI生态系统遭遇外生冲击而大幅放缓的可能性，例如算力或电力供应突然中断，这两种情况都会减缓发展速度，并增加实验室的前期投资成本。此外，我们可能还没有预见到其他一些阻碍进步的障碍。

即使模型的能力冻结在当前水平，世界也将发生重大变化。“玻璃翼计划”（Project Glasswing）就是一个早期迹象：在上线的最初几周，Mythos Preview就在全球最重要的系统中发现了一万多个高危和严重级别的软件漏洞——数量之多，使得网络防御的瓶颈已经从发现漏洞转变为足够快地修复漏洞。而当前模型向更广泛经济领域的渗透才刚刚开始，未来一家100人的公司将越来越能够完成过去1000人才能完成的工作，因为每位员工都将拥有一个由智能体组成的“金字塔”作为支撑。

为了全面起见，我们列出了这一场景，但我们认为它发生的可能性不大。到目前为止，我们能够衡量的每一项能力——包括那些感觉更“主观”的能力，例如代码质量和开放性任务的成功率——都遵循着相同的增长曲线。我们尚未看到这条曲线出现拐点。在我们考虑的三种未来中，这一场景将给各国政府和社会最多的时间来适应。我们更担心的是接下来两种场景，它们的发展速度会更快，留给我们的准备时间也会少得多。

AI实验室持续获得复利式效率提升

在这一场景中，AI开发将实现高度自动化，但人类仍将负责设定研究方向和评判结果。随着时间的推移，使用AI系统的组织将变得更加高效，组织中每个人的生产力都将得到显著提升。100人的公司将能够完成过去1万甚至10万人才能完成的工作。这将彻底变革知识工作和政府服务，但也可能被用于有害目的，例如对全体民众进行威权式监控，或者开展针对每个人的定制化影响力操作，其规模是任何人类团队都无法企及的。在Anthropic这样的公司，人类的角色将发生转变。人们将与AI系统合作，扩大研究规模并产生新的见解，共同构建验证AI输出可信度所需的系统。

我们在此呈现的证据表明，我们很可能正走向这一场景。但加快流程的某一部分往往只会将瓶颈转移到其他地方：整体进度由那些没有被加快的部分决定。在计算机科学中，这被称为阿姆达尔定律，同样的逻辑也适用于组织。Anthropic已经遇到了阿姆达尔定律的一个典型表现：随着我们在组织内部流转的代码量大幅增加，人工代码审核已成为新的瓶颈。

我们在工程之外的领域也遇到了类似的摩擦。由于Anthropic员工与高能力模型的合作，新的想法、项目、工具和模拟实验呈爆炸式增长，数量远远超过了我们能够跟进的能力。组织发现并解决这些瓶颈的速度，可能会成为一种随时间不断提升的技能，并且可能成为任何组织最重要的技能。

AI系统自身具备完全递归自我改进能力，并开始构建下一代系统

如果能力提升的技术趋势持续下去，并且AI系统能够发展出人类变革性创造力所特有的能力，那么AI系统设计和优化自身将成为可能。

在这样的世界里，AI开发的进度将完全由AI系统可获得的算力（或者算法训练和推理效率的提升速度）决定。人类在AI开发中的角色将大幅弱化，大部分精力可能会转向监督、验证和确认由AI系统运行的不断扩大的“虚拟实验室”。我们预计，能够自动化开展AI研发的系统，其技能将能够迁移到其他科学领域，从而开始彻底变革这些领域。

在这一未来中，对齐问题能否得到解决，以及如何解决，是我们最不确定的事情。模型可能会被证明具有足够的对齐性和良好的研究品味，从而发现并实现我们尚未想到的新颖解决方案；它们也可能足够明智，在必要时停止开发。另一种可能是，当前模型中罕见的对齐失败问题，会随着模型构建下一代系统而不断累积，变得越来越频繁且难以理解，最终导致我们失去对它们的控制。我们可能无法构建、集成和验证所需的工具，来弄清楚我们实际上正处于哪一条发展轨迹上。

我们无法准确想象这样的世界会是什么样子，因为我们当前的经济是由人类和人类制造的工具驱动的。从本质上讲，一个由快速递归自我改进驱动的世界，可能会被自我改进的模型所主导——当它的能力完全超越人类，并在更广泛的经济领域中普及之后。如果人类劳动不再具有竞争力，经济会变成什么样子，这是难以预测的。

即使模型开发实现了完全自动化和递归式发展，我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能会让我们在某些领域快速实现《慈爱机器》（Machines of Loving Grace）一书中描绘的诸多益处。我们预计，具身智能（即机器人技术）可能会紧随递归智能之后，走上一条类似的收益递增、成本递减的发展道路。更强大的智能可能会帮助我们更快地建造物理世界中的事物，开展更高效的救命药物临床试验，并开发出新颖的协作方式。

但仅仅实现递归自我改进，并不意味着工业生产方式、社会组织形式或市场运行机制会立即发生改变。再强大的智能也无法在短时间内了解一种药物数十年的使用效果，无法比宪法规定的时间更早举行选举，也无法在一个周末内把陌生人变成老朋友。对于大多数人来说，即使上游的实验室以算力的速度运行，他们感受到的未来发展速度仍将由各种瓶颈决定。不断加速自我构建的递归智能，与由人类、人际关系和治理体系构成的现实世界之间的碰撞，是这一未来中我们无法预测的另一部分。

我们应该怎么做？

如果能够有效减缓这项技术的发展速度，让我们有更多时间来应对其巨大的影响，我们认为这可能是一件好事。但如果减速只是让那些最不谨慎的参与者在技术上迎头赶上，那么所有人的安全都会受到威胁。在缺乏全球协调机制的情况下，企业和政府将不得不在竞争和地缘政治压力下，就安全问题做出艰难的决定。

我们认为，世界应该拥有减缓或暂时暂停前沿AI开发的选择权，以便让社会结构和对齐研究能够跟上技术的发展步伐。Anthropic研究院将与众多合作伙伴共同开展研究，并采取行动帮助构建可信的减速或暂停所需的系统。这些系统将使前沿AI开发者能够核实全球其他开发者是否确实停止或减缓了开发，并且防止不良行为者借协调减速之名，秘密地抢先发展。如果这样的系统存在，我们预计，当其他处于或接近前沿的开发者也以可验证的方式这样做时，我们也会减缓或暂时暂停开发。

一次有意义的减速或暂停，需要多个国家中多个资源充足的前沿或接近前沿的实验室，同意在相同条件下停止开发。同时，每个实验室都需要能够核实其他实验室确实已经停止。由于AI系统的独特特性，这一军控问题中的“可探测性”（比“可验证性”要求更低的标准）比其他技术要困难得多。训练任务比导弹发射井更容易隐藏，其投入是通用的，而且秘密违约的动机巨大——因为在其他人暂停时继续开发的一方，将能够获得领先地位。一次可信的暂停还必须明确触发条件、解除条件以及裁决机构。

所有这些在原则上并非不可能——世界已经为其他复杂技术建立了验证机制（例如《中程核力量条约》）——但这些机制花了数十年时间才建成基础设施并建立起信任。而我们没有那么多时间。相比之下，单个实验室的单方面暂停是可以立即实现的，但效果要小得多：它只会改变领先者是谁，而无法建立目前缺失的更广泛的协商机制。

在未来几个月，我们将组织一系列对话，让政策制定者、研究人员、民间社会和其他AI公司共同探讨本文提出的一些问题，特别是关于完全递归自我改进以及如何创造更好的协调和协商选项的问题。我们将公布对话的成果。共同探讨这些问题的窗口期已经到来，AI公司之外的人士也应该参与到这一协商过程中来。

脚注

¹ METR的核心指标衡量的是AI系统在一组任务上达到50%可靠性的时间跨度，不过在80%可靠性下，趋势线看起来是一样的。

² 尤其是当基准测试转向更开放的格式和更困难的任务（例如奥林匹克数学竞赛）时，由于问题和答案集中存在歧义性问题陈述、无解问题等错误，基准测试的饱和点往往低于100%。

³ Anthropic领导层曾公开估计，包括脚本和实验代码在内，我们90%以上的代码是由Claude编写的。我们的>80%这一数据，衡量的是合并到生产环境中可归因于Claude的代码行数占比。这一衡量方式在两个方面更为保守：一是我们的归因流程存在漏洞，二是未归因于Claude的代码行中，也包含自动生成的代码和其他并非人类手写的产物。

⁴ 代码产量的激增正在给所有人共享的基础设施带来压力。全球大部分软件赖以构建的平台GitHub，2025年全年的代码提交量约为10亿次；到2026年年中，其每周代码提交量已达2.75亿次，全年预计约为140亿次。该公司首席运营官表示，他们正在“竭尽全力”扩容以跟上需求。

⁵ 关于这项调查的方法学细节，详见《Claude Opus 4.7系统卡片》第2.3.5节。

⁶ 许多受访者可能没有仔细考虑如何解释问题定义中的各种偏差或细微差别，而METR最近的研究表明，开发者对AI生产力提升的估计可能存在高估。

⁷ 加速幅度在很大程度上取决于初始代码的改进空间，不应将其解读为实际的训练速度提升。因此，这里的绝对倍数并非关键参考值。更有价值的是这一实验设置所实现的同类比较：不同模型之间的对比（过去一年从约3倍提升至约52倍），以及与熟练人类的对比（同一任务人类需要4-8小时才能实现4倍加速）。

⁸ 为了检验评判员的偏差，我们在另一组127个时刻进行了相同的测试——在这些时刻，人类的下一步决策已经是最优的（与原始组中人类的方向存在改进空间不同）。在这些情况下，模型提出的方案仅在约20%的情况下被认为优于人类。