当 AI 开始建造 AI:递归自我改进离我们还有多远
# 导语
Anthropic Institute 这篇文章讨论了一个正在从科幻进入工程现实的问题:AI 是否正在加速 AI 的开发,并最终走向“递归自我改进”——也就是 AI 能够自主设计、训练和改进下一代 AI。文章的立场并不夸张:这还没有发生,也并非必然发生;但从外部基准和 Anthropic 内部数据看,相关趋势已经足够快,快到多数机构可能尚未准备好。
# 核心内容
文章首先给出一条能力演进线:早期 Claude 主要像聊天机器人一样提供代码片段;随后进入“编码代理”阶段,能自己修改文件、运行代码;到今天,代理已经能执行更长时间的任务,并把工作委派给其他代理。真正的闭环还在未来:如果代理能自己构建、训练和评估模型,那么 Claude 的后续版本就可能由 Claude 持续改进。
外部证据显示,AI 可独立完成任务的时间长度正在快速增长。METR 的长期任务评测中,模型可靠完成任务的时长大约每四个月翻倍;2024 年 Claude Opus 3 只能完成约 4 分钟的人类软件任务,一年后 Sonnet 3.7 可处理约 1.5 小时任务,再之后 Opus 4.6 已能处理 12 小时级任务。SWE-bench 等真实软件工程基准也在两年内从低个位数得分走向接近饱和;CORE-Bench 中复现实验结果的能力也从 2024 年约 20% 成功率提升到 15 个月后接近饱和。
内部数据更直接。Anthropic 称,截至 2026 年 5 月,合入代码库的代码中超过 80% 由 Claude 编写;典型工程师在 2026 年第二季度每天合入的代码量约为 2024 年的 8 倍。虽然“代码行数”不能等同于真实生产力,但员工主观调查也显示,研究团队成员认为自己在 Mythos Preview 帮助下产出约为无 AI 时的 4 倍。Claude 还完成了大量原本不会被优先处理的工程清理,例如一次性提交 800 多个修复,将某类 API 错误降低了 1000 倍。
在质量上,Claude 编写的代码从“可用但略逊于人类”迅速逼近持平。最开放任务的成功率在 2026 年 5 月达到 76%,半年内提升 50 个百分点;自动 Claude 代码审查回溯显示,它本可在上线前发现约三分之一导致 claude.ai 事故的历史缺陷。研究方面,Claude 在明确目标的实验优化中更突出:一个小模型训练代码加速任务里,Opus 4 在 2025 年约能做到 3 倍加速,而 2026 年 Mythos Preview 可达约 52 倍,远超熟练人类研究者 4 到 8 小时内通常达到的 4 倍。
# 深度解读
这篇文章最关键的判断是:人类在 AI 开发链条中的角色正在从“亲手做”收缩为“设定方向、审查结果、判断价值”。如果写代码、跑实验、复现实验这些“体力活”在人的时间成本上趋近于零,那么真正稀缺的就变成研究品味、问题选择、结果可信度判断,以及安全治理。
但这也带来新瓶颈。AI 生成代码和实验结果越快,人类审查越可能跟不上;如果审查能力没有同步自动化,研发速度会被“信任与验证”卡住。更深层的风险在于,当 AI 不只执行人类指定任务,而是开始选择问题、提出假设、规划实验并据此改进下一代模型时,传统的安全边界会被压缩。文章提到的开放式安全研究案例很有象征性:人类设定问题和评分标准,Claude 代理在 800 小时累计计算中恢复了弱监督到强模型之间 97% 的性能差距。这说明 AI 尚未完全取代方向设定,但已经能在明确框架内完成相当复杂的科研循环。
Anthropic 的叙述也有自我警惕:递归自我改进不等于已经到来,当前训练范式能否产生真正可靠的研究判断仍不确定。不过,AI 进步往往不是靠少数“灵光一现”,而是靠大量缩放、试错、修复、再试。恰恰是这种 99% 的“汗水型工作”,正在被自动化。
# 启示与展望
对技术从业者而言,最现实的启示不是“人类马上失业”,而是工作重心正在上移:会写代码不再足够,能定义好问题、拆解目标、设计验证、识别幻觉和风险,才会更有价值。对企业而言,AI 研发组织的核心竞争力可能从“雇多少工程师”转向“每个人能安全地驾驭多少代理、多少实验、多少自动化流水线”。
对社会和监管者而言,真正需要提前准备的是闭环出现前的治理:可审计的训练流程、自动化安全评测、权限隔离、异常监控,以及对“AI 参与改进 AI”程度的透明披露。如果 AI 能建造更强的 AI,它既可能极大加速医疗、科学和工程进步,也可能让失控风险在更短周期内累积。现在还不是终点,但已经到了必须认真设计刹车、仪表盘和方向盘的时候。
夜雨聆风