当 AI 开始建造 AI:递归自我改进离我们还有多远

当 AI 开始建造 AI：递归自我改进离我们还有多远

# 导语

Anthropic Institute 这篇文章讨论了一个正在从科幻进入工程现实的问题：AI 是否正在加速 AI 的开发，并最终走向“递归自我改进”——也就是 AI 能够自主设计、训练和改进下一代 AI。文章的立场并不夸张：这还没有发生，也并非必然发生；但从外部基准和 Anthropic 内部数据看，相关趋势已经足够快，快到多数机构可能尚未准备好。

# 核心内容

文章首先给出一条能力演进线：早期 Claude 主要像聊天机器人一样提供代码片段；随后进入“编码代理”阶段，能自己修改文件、运行代码；到今天，代理已经能执行更长时间的任务，并把工作委派给其他代理。真正的闭环还在未来：如果代理能自己构建、训练和评估模型，那么 Claude 的后续版本就可能由 Claude 持续改进。

外部证据显示，AI 可独立完成任务的时间长度正在快速增长。METR 的长期任务评测中，模型可靠完成任务的时长大约每四个月翻倍；2024 年 Claude Opus 3 只能完成约 4 分钟的人类软件任务，一年后 Sonnet 3.7 可处理约 1.5 小时任务，再之后 Opus 4.6 已能处理 12 小时级任务。SWE-bench 等真实软件工程基准也在两年内从低个位数得分走向接近饱和；CORE-Bench 中复现实验结果的能力也从 2024 年约 20% 成功率提升到 15 个月后接近饱和。

内部数据更直接。Anthropic 称，截至 2026 年 5 月，合入代码库的代码中超过 80% 由 Claude 编写；典型工程师在 2026 年第二季度每天合入的代码量约为 2024 年的 8 倍。虽然“代码行数”不能等同于真实生产力，但员工主观调查也显示，研究团队成员认为自己在 Mythos Preview 帮助下产出约为无 AI 时的 4 倍。Claude 还完成了大量原本不会被优先处理的工程清理，例如一次性提交 800 多个修复，将某类 API 错误降低了 1000 倍。

在质量上，Claude 编写的代码从“可用但略逊于人类”迅速逼近持平。最开放任务的成功率在 2026 年 5 月达到 76%，半年内提升 50 个百分点；自动 Claude 代码审查回溯显示，它本可在上线前发现约三分之一导致 claude.ai 事故的历史缺陷。研究方面，Claude 在明确目标的实验优化中更突出：一个小模型训练代码加速任务里，Opus 4 在 2025 年约能做到 3 倍加速，而 2026 年 Mythos Preview 可达约 52 倍，远超熟练人类研究者 4 到 8 小时内通常达到的 4 倍。

# 深度解读

这篇文章最关键的判断是：人类在 AI 开发链条中的角色正在从“亲手做”收缩为“设定方向、审查结果、判断价值”。如果写代码、跑实验、复现实验这些“体力活”在人的时间成本上趋近于零，那么真正稀缺的就变成研究品味、问题选择、结果可信度判断，以及安全治理。

但这也带来新瓶颈。AI 生成代码和实验结果越快，人类审查越可能跟不上；如果审查能力没有同步自动化，研发速度会被“信任与验证”卡住。更深层的风险在于，当 AI 不只执行人类指定任务，而是开始选择问题、提出假设、规划实验并据此改进下一代模型时，传统的安全边界会被压缩。文章提到的开放式安全研究案例很有象征性：人类设定问题和评分标准，Claude 代理在 800 小时累计计算中恢复了弱监督到强模型之间 97% 的性能差距。这说明 AI 尚未完全取代方向设定，但已经能在明确框架内完成相当复杂的科研循环。

Anthropic 的叙述也有自我警惕：递归自我改进不等于已经到来，当前训练范式能否产生真正可靠的研究判断仍不确定。不过，AI 进步往往不是靠少数“灵光一现”，而是靠大量缩放、试错、修复、再试。恰恰是这种 99% 的“汗水型工作”，正在被自动化。

# 启示与展望

对技术从业者而言，最现实的启示不是“人类马上失业”，而是工作重心正在上移：会写代码不再足够，能定义好问题、拆解目标、设计验证、识别幻觉和风险，才会更有价值。对企业而言，AI 研发组织的核心竞争力可能从“雇多少工程师”转向“每个人能安全地驾驭多少代理、多少实验、多少自动化流水线”。

对社会和监管者而言，真正需要提前准备的是闭环出现前的治理：可审计的训练流程、自动化安全评测、权限隔离、异常监控，以及对“AI 参与改进 AI”程度的透明披露。如果 AI 能建造更强的 AI，它既可能极大加速医疗、科学和工程进步，也可能让失控风险在更短周期内累积。现在还不是终点，但已经到了必须认真设计刹车、仪表盘和方向盘的时候。