AI正在自己造自己!Anthropic内部数据曝光:80%代码由AI编写,能力4个月翻倍

2026年6月4日，Anthropic在官方博客发布了一份注定要被反复引用的报告——《When AI Builds Itself》。

联合创始人Jack Clark和内部研究机构负责人Marina Favaro联合署名，同周OpenAI也发布了类似的RSI预警文件，Andrej Karpathy近期加入Anthropic的RSI相关部门——这不是巧合，这是信号。

核心信息只有一个：截至2026年5月，合并到Anthropic代码库的代码，超过80%由Claude撰写。

这不是预测。这不是推演。这是Anthropic内部的真实数据。

2025年2月Claude Code发布前，这个数字仅是个位数。16个月——从"打下手"到"包揽八成"。

一位Anthropic员工的自述更直白："大约一年前开始全力用Claude，到现在已经约5个月没自己写过代码了。"

01 / 工程师人均产出：暴涨8倍

Anthropic内部数据揭示了一条令人震撼的曲线：

2021-2024年：工程师每日合并代码量基本持平，一条平直线

2025年：Claude开始自己运行代码，曲线第一次上扬

2026年：模型开始长时间自主工作，曲线第二次陡升

2026年Q2：典型工程师日代码合并量是2024年的8倍

但Anthropic很诚实：代码行数是"不完美指标"，8倍高估了真实生产力。内部调查（130人，2026年3月）显示，中位数受访者估计产出约为不使用AI时的4倍。

8倍还是4倍？坦率说，这个争议本身已经不再重要。重要的是方向——当AI从"工具"变成"同事"，生产力的曲线不再是线性的，而是指数级的。

02 / 能力翻倍周期：7个月→4个月

这是整份报告中我最关注的数据。AI独立完成任务的时长，大约每4个月翻一番——而此前的趋势是每7个月。

Claude Opus 3（2024年3月）：约4分钟的任务

Claude Sonnet 3.7（2025年3月）：约1.5小时的任务

Claude Opus 4.6（2026年3月）：约12小时的任务

Claude Mythos Preview（2026年5月）：至少16小时（达到METR测量上限）

外推一下：如果趋势持续——2026年可能处理数天级别的任务，2027年可能处理数周级别的任务。这意味着什么？意味着AI正在从一个"帮你写几行代码的助手"，变成一个"能独立跑完一个项目的工程师"。

更关键的是加速度本身的变化：7个月到4个月，不是简单的数字缩短，而是指数曲线的底数在变大。每一个翻倍周期都在更快地到来。

03 / 实验优化：52倍加速碾压人类

这个数据让我倒吸一口凉气。Anthropic给Claude一段训练代码，要求在保证正确性的前提下加速运行：

Claude Opus 4（2025年5月）：约3倍加速

Claude Mythos Preview（2026年4月）：约52倍加速

熟练人类研究员：4-8小时做到4倍加速

一年时间，Claude从"超级有用"进化到了"超人水平"。52倍是什么概念？人类研究员花一整天做到4倍优化，Claude做到52倍。而且这52倍不是靠蛮力堆算力，是靠理解代码结构并做出聪明的优化决策。

这才是让人真正不安的地方——不是AI跑得更快，而是AI开始比我们更懂怎么优化。

04 / 代码质量：从略逊于人到即将超越

代码量暴增没有意义，除非质量跟得上。Anthropic跟踪了Claude代码质量的演变轨迹：

2025年底：Claude编写的代码质量略逊于人类工程师

2026年5月：两者大致持平

Anthropic预计：未来一年内Claude代码质量将超越人类

另一个关键指标：在最开放的任务上，Claude的成功率6个月从26%飙升到76%——50个百分点的跃升。过去一年，员工纠正/接管Claude任务的频率持续下降。

质量曲线的意义远大于数量曲线。当AI写的代码从"需要人擦屁股"变成"和人差不多"再到"比人更好"，这不是渐进式改善，这是质变。

更震撼的数据：现在提交到Anthropic代码库的变更，必须先经过自动化Claude审查工具。回溯分析显示，约1/3曾导致线上事故的缺陷，如果当时有Claude审查，会在进入生产环境前被拦截。

注意——"编写这些代码的工程师，本已是世界上构建此类系统最顶尖的人才。"

05 / 研究判断力：最后的护城河正在塌陷

如果说代码质量和执行速度是"硬实力"，那么研究判断力就是"软实力"——也是人类自认为最后的优势领域。Anthropic做了一个精巧的测试：

测试设计：翻出人类研究员"走弯路"的129个时刻，让Claude判断"下一步该怎么走"——也就是在人类已经犯错的地方，AI能不能做出更好的选择？

Opus 4.5（2025年11月）：51%概率给出比人类更优的下一步

Mythos Preview（2026年4月）：64%

端到端AI安全实验更说明问题：人类研究员一周追回23%性能差距，Claude智能体军团追回97%。

64%——这意味着在超过六成的情况下，AI做出的研究决策比人类更好。这不是编码速度的碾压，这是判断力的碾压。我们一直以为"知道该做什么"是人类最后的堡垒，现在这座堡垒也在动摇。

06 / Anthropic为什么呼吁暂停？

所有这些数据指向一个令人不安的终局——递归自我改进（RSI）。

当AI自己设计、训练、迭代自己的继任者，增长曲线将从指数变为……没人知道会变成什么。

Anthropic的判断：RSI尚未到来，但"可能在未来两年内发生，甚至更早"。Jack Clark在伦敦演讲给出数字：2028年底前出现RSI的概率为60%。

Anthropic罕见地发出了呼吁：如果有可验证的机制确保各实验室不偷偷卷，愿意减速甚至暂停。一家以商业竞争为核心的公司说出"愿意暂停"四个字，你品，你细品。

三种未来：

❶ 增长停滞——AI能力触及天花板（可能性低）

❷ 人类掌舵的自动化加速——AI是超强工具，人仍是决策者（最可能）

❸ 完全递归自我改进——AI自己造自己，人失去控制权（风险最高）

坦率说， Anthropic这份报告最让我震撼的不是任何一个数字，而是它同时呈现了两件事：AI能力的惊人进步和对这种进步的深切忧虑。这不是"看我们多厉害"的秀肌肉，这是"看我们多厉害——所以我们应该停下来想想"的罕见清醒。

07 / 对开发者的5个实际影响

别恐慌，行动。基于Anthropic的数据，以下是对每位开发者的实际判断：

❶ 编程方式根本改变

从"写代码"变成"指导和审阅AI写的代码"。Anthropic员工5个月没手写代码，这不是特例，这是趋势的预演。你不需要恐慌，但你需要开始练习"AI代码审阅"这项新技能。

❷ 能力翻倍加速：4个月翻一番

4个月翻一番意味着一年3倍。你的AI工具迭代速度远超你的学习速度。别试图追上AI的进步，而是学会站在AI进步的肩膀上——让今天的AI帮你用好明天的AI。

❸ 代码审查比代码编写重要10倍

AI写代码越来越快，但审查质量决定了是8倍还是4倍。1/3的线上事故可以被AI审查提前拦截——这意味着审查本身正在成为最高杠杆的活动。把时间花在审阅上，而不是编写上。

❹ 研究判断力是最后护城河——但正在塌陷

执行层AI已经追平甚至超越人类。64%的概率AI做出更好的研究决策——但还有36%。这36%就是你的差异化空间。深耕领域判断力，比深耕编码技巧更有价值。

❺ AI安全不再是理论问题

1/3的线上事故可以被AI审查提前拦截——这是实实在在的收益。在你的团队中引入AI代码审查，不是"追赶潮流"，是"减少事故"。AI安全从学术讨论变成了工程实践。

当AI开始造AI，开发者该站在哪一边？

Anthropic这份报告的标题——"When AI Builds Itself"——用的是When，不是If。

80%的代码由AI编写，4个月能力翻倍，52倍优化碾压人类，64%概率做出更好的研究决策——这不是未来某天的新闻，这是2026年5月已经发生的事实。

对开发者而言，真正的问题从来不是"AI会不会取代我"，而是"我能不能在AI还在需要我的窗口期，完成从编码者到审阅者到决策者的角色进化"。

那个窗口正在以4个月为周期加速关闭。

数据来源：Anthropic官方博客《When AI Builds Itself》(2026.6.4)