8倍产出、80%代码由AI写——Anthropic首次公开内部数据,告诉你AI离"自己造自己"还有多远
今天Anthropic工程师合并的代码中,80%以上由Claude撰写。这不是未来预言,是2026年5月的数据。
Anthropic Institute刚刚发布了一篇长文"When AI builds itself",首次系统性公开了AI在加速AI开发的内外部证据。文章的核心追问是:如果AI自己写代码、自己跑实验、自己选研究方向——离AI自己设计自己的继任者,还有多远?
以下数据全部来自原文。我们一条一条看。
AI能干多久的活了?从4分钟到12小时,只用了两年
文章公布了一条最重要的趋势线:AI系统能独立完成的任务时长,正在加速翻倍。
| 4分钟 | ||
| 1.5小时 | ||
| 12小时 | ||
| 数周级别 |
更值得注意的是翻倍速度本身在加快——从早期的每7个月翻倍,缩短到现在的每4个月翻倍。用Anthropic原文的话说:"如果这个趋势持续,今年内就能达到需要人类数天的任务,2027年可达数周级别。"
基准测试已经"撑不住"了
几个指向同一趋势的外部证据:
METR 机构的评价很有意思——"Claude Mythos 已经处于我们不用新任务就测不出上限的水平"。这些基准测试不是不够好,而是已经不够用了。
Anthropic内部数据——数据不会说谎
公开基准只能旁证。文章最有力量的部分是Anthropic首次公开的内部工程数据。
关键数据 #1:80%+ 代码由Claude撰写 截至2026年5月,Anthropic合并的代码库中,超过80%由Claude编写。而在Claude Code于2025年2月发布研究预览版之前,这个数字还是个位数。
关键数据 #2:8倍产出 2026年第二季度,Anthropic的典型工程师人均日合并代码量,是2024年的8倍。文章特别加了一个注释:"行数不是一个完美的度量,8倍几乎肯定高估了真正的生产力提升——但它确实表明了一个加速趋势。"
下面这张图展示了从2021年到2026年,随着模型能力提升,人均代码贡献量的变化。两次明显的跳跃点分别对应Claude Code发布(2025.02)和Claude Mythos Preview(2026)——也就是AI从"建议代码让人复制粘贴"进化到"自己运行代码并完成任务"的时刻。

Anthropic工程师人均日合并代码量,标注了每次模型发布节点。来源:Anthropic Institute
关键数据 #3:4倍效率自评 2026年3月对Anthropic 130名研究人员的内部匿名调研显示,中位数受访者估计,使用Mythos Preview后,他们在自己原本就在做的项目上的产出大约是原来的4倍。
关键数据 #4:800个Bug,人工要修4年 2026年4月,Claude一次性修复了800多个Bug,将某一类API错误降低了1000倍。负责监督的工程师评估:如果人工来做,需要4年。原因是"修别人的Bug太慢太痛苦了,一个人脑子里装不下那么多陌生上下文。"
代码质量——不仅仅是"能跑"
"代码写得多"不等于"代码写得好"。Anthropic也跟踪了质量指标。
好代码有两个标准:能工作,并且其他人能读懂并继续开发。Anthropic用Claude Code的会话成功率来衡量——一个会话被判定为成功,意味着Claude在没有需要人工纠正的情况下,完整完成了用户的任务。
下面是不同难度任务的成功率变化:

不同难度任务的Claude Code会话成功率。最难的"开放式问题"6个月内从约26%提升到76%。来源:Anthropic Institute
最难的"开放式问题"——也就是完全没有明确规格说明、工程师自己都不知道答案长什么样的任务——成功率从不到30%提升到了76%,6个月内提升了50个百分点。而简单和常规任务的成功率已经接近90%以上。
另一个让人印象深刻的数字:超过5个月没有亲自写过一行代码的Anthropic工程师出现了。他在公司内部说了一句话:
"大约一年前我开始重度依赖Claude。那之后是一段疯狂的冒险——到现在我已经大约5个月没有亲自写过一行代码了。" ——Anthropic一名工程师
最后一块拼图:研究判断力
构建前沿模型需要两种工作:工程(写代码、搭基础设施、监督训练)和研究(决定做什么实验、解读结果、判断哪个方向值得探索)。
工程端,AI已经可以接手"没有明确说明"的任务——人类给目标,AI自己想方法。但研究端,还存在一个关键差距。
文章提供了一张数据图,衡量的是:AI能否比人类选出更好的下一步研究方向。

"AI能否比人类选出更好的下一步?"从Claude 3 Haiku到Mythos Preview的性能演变。来源:Anthropic Institute
从Claude 3 Haiku到Mythos Preview,AI在研究判断力上持续提升。但文章也坦承:"在执行明确实验方面,Claude已经可以匹配甚至超越有经验的人类;但在判断哪些问题值得研究方面,还有较大的性能差距。"
文章用工程师的成长阶段来做类比:
这就是当前AI距离"完全自主设计自己的继任者"的最后一块拼图。
双刃剑——当AI开始造AI
Anthropic在这篇文章中也没有回避风险讨论。
AI的递归自我改进——也就是"AI自己设计自己的继任者"——一旦发生,将是技术史上一个里程碑级别的事件。它可能带来科学、医疗等领域的巨大进步,但也可能增加人类对AI失去控制的风险。
文章原文说:"如果系统能够完全自主地构建自己的继任者,那么我们对它们进行安全保护、监控和行为塑造的方式,都变得重要得多。"
文章配了一张演化图,展示了AI开发闭环的五个阶段:
2021–2023 → 人在写代码 2023–2025 → 聊天机器人辅助 2025–2026 → 编码Agent 现在 → 自主Agent(能运行代码、委派任务给其他Agent) 20XX? → 闭环——AI自己训练AI
文章最后强调:递归自我改进并非不可避免。但它的到来"可能比大多数机构预期得更快"。
最后一个问题
这篇文章最有意思的地方,不是它展示了多少震撼数据——而是它揭示了一个正在发生的真实趋势。
在2021到2024年,Anthropic的工程师人均产出几乎是一条平线。然后AI来了。1.5年之后,产出翻了8倍。80%以上的代码是AI写的。有工程师已经5个月没写过一行代码。
文章的标题叫"When AI builds itself"。它没有给出答案——但它给出的数据和趋势,值得我们每个人想一想:
当AI能完成12小时不间断的编程任务时,你的工作流程里,还剩下多少必须由人来做的事?
原文:When AI builds itself — Anthropic Institute 编译 & 解读:AI练技箱

扫码关注 · AI练计箱用最简单的比喻,讲最硬核的技术
— END —
夜雨聆风