2026年6月4日,Anthropic在官方博客发布了一份注定要被反复引用的报告——《When AI Builds Itself》。
联合创始人Jack Clark和内部研究机构负责人Marina Favaro联合署名,同周OpenAI也发布了类似的RSI预警文件,Andrej Karpathy近期加入Anthropic的RSI相关部门——这不是巧合,这是信号。
核心信息只有一个:截至2026年5月,合并到Anthropic代码库的代码,超过80%由Claude撰写。
这不是预测。这不是推演。这是Anthropic内部的真实数据。
2025年2月Claude Code发布前,这个数字仅是个位数。16个月——从"打下手"到"包揽八成"。
一位Anthropic员工的自述更直白:"大约一年前开始全力用Claude,到现在已经约5个月没自己写过代码了。"
01 / 工程师人均产出:暴涨8倍
Anthropic内部数据揭示了一条令人震撼的曲线:
2021-2024年:工程师每日合并代码量基本持平,一条平直线
2025年:Claude开始自己运行代码,曲线第一次上扬
2026年:模型开始长时间自主工作,曲线第二次陡升
2026年Q2:典型工程师日代码合并量是2024年的8倍
但Anthropic很诚实:代码行数是"不完美指标",8倍高估了真实生产力。内部调查(130人,2026年3月)显示,中位数受访者估计产出约为不使用AI时的4倍。
8倍还是4倍?坦率说,这个争议本身已经不再重要。重要的是方向——当AI从"工具"变成"同事",生产力的曲线不再是线性的,而是指数级的。
02 / 能力翻倍周期:7个月→4个月
这是整份报告中我最关注的数据。AI独立完成任务的时长,大约每4个月翻一番——而此前的趋势是每7个月。
Claude Opus 3(2024年3月):约4分钟的任务
Claude Sonnet 3.7(2025年3月):约1.5小时的任务
Claude Opus 4.6(2026年3月):约12小时的任务
Claude Mythos Preview(2026年5月):至少16小时(达到METR测量上限)
外推一下:如果趋势持续——2026年可能处理数天级别的任务,2027年可能处理数周级别的任务。这意味着什么?意味着AI正在从一个"帮你写几行代码的助手",变成一个"能独立跑完一个项目的工程师"。
更关键的是加速度本身的变化:7个月到4个月,不是简单的数字缩短,而是指数曲线的底数在变大。每一个翻倍周期都在更快地到来。
03 / 实验优化:52倍加速碾压人类
这个数据让我倒吸一口凉气。Anthropic给Claude一段训练代码,要求在保证正确性的前提下加速运行:
Claude Opus 4(2025年5月):约3倍加速
Claude Mythos Preview(2026年4月):约52倍加速
熟练人类研究员:4-8小时做到4倍加速
一年时间,Claude从"超级有用"进化到了"超人水平"。52倍是什么概念?人类研究员花一整天做到4倍优化,Claude做到52倍。而且这52倍不是靠蛮力堆算力,是靠理解代码结构并做出聪明的优化决策。
这才是让人真正不安的地方——不是AI跑得更快,而是AI开始比我们更懂怎么优化。
04 / 代码质量:从略逊于人到即将超越
代码量暴增没有意义,除非质量跟得上。Anthropic跟踪了Claude代码质量的演变轨迹:
2025年底:Claude编写的代码质量略逊于人类工程师
2026年5月:两者大致持平
Anthropic预计:未来一年内Claude代码质量将超越人类
另一个关键指标:在最开放的任务上,Claude的成功率6个月从26%飙升到76%——50个百分点的跃升。过去一年,员工纠正/接管Claude任务的频率持续下降。
质量曲线的意义远大于数量曲线。当AI写的代码从"需要人擦屁股"变成"和人差不多"再到"比人更好",这不是渐进式改善,这是质变。
更震撼的数据:现在提交到Anthropic代码库的变更,必须先经过自动化Claude审查工具。回溯分析显示,约1/3曾导致线上事故的缺陷,如果当时有Claude审查,会在进入生产环境前被拦截。
注意——"编写这些代码的工程师,本已是世界上构建此类系统最顶尖的人才。"
05 / 研究判断力:最后的护城河正在塌陷
如果说代码质量和执行速度是"硬实力",那么研究判断力就是"软实力"——也是人类自认为最后的优势领域。Anthropic做了一个精巧的测试:
测试设计:翻出人类研究员"走弯路"的129个时刻,让Claude判断"下一步该怎么走"——也就是在人类已经犯错的地方,AI能不能做出更好的选择?
Opus 4.5(2025年11月):51%概率给出比人类更优的下一步
Mythos Preview(2026年4月):64%
端到端AI安全实验更说明问题:人类研究员一周追回23%性能差距,Claude智能体军团追回97%。
64%——这意味着在超过六成的情况下,AI做出的研究决策比人类更好。这不是编码速度的碾压,这是判断力的碾压。我们一直以为"知道该做什么"是人类最后的堡垒,现在这座堡垒也在动摇。
06 / Anthropic为什么呼吁暂停?
所有这些数据指向一个令人不安的终局——递归自我改进(RSI)。
当AI自己设计、训练、迭代自己的继任者,增长曲线将从指数变为……没人知道会变成什么。
Anthropic的判断:RSI尚未到来,但"可能在未来两年内发生,甚至更早"。Jack Clark在伦敦演讲给出数字:2028年底前出现RSI的概率为60%。
Anthropic罕见地发出了呼吁:如果有可验证的机制确保各实验室不偷偷卷,愿意减速甚至暂停。一家以商业竞争为核心的公司说出"愿意暂停"四个字,你品,你细品。
三种未来:
❶ 增长停滞——AI能力触及天花板(可能性低)
❷ 人类掌舵的自动化加速——AI是超强工具,人仍是决策者(最可能)
❸ 完全递归自我改进——AI自己造自己,人失去控制权(风险最高)
坦率说, Anthropic这份报告最让我震撼的不是任何一个数字,而是它同时呈现了两件事:AI能力的惊人进步和对这种进步的深切忧虑。这不是"看我们多厉害"的秀肌肉,这是"看我们多厉害——所以我们应该停下来想想"的罕见清醒。
07 / 对开发者的5个实际影响
别恐慌,行动。基于Anthropic的数据,以下是对每位开发者的实际判断:
❶ 编程方式根本改变
从"写代码"变成"指导和审阅AI写的代码"。Anthropic员工5个月没手写代码,这不是特例,这是趋势的预演。你不需要恐慌,但你需要开始练习"AI代码审阅"这项新技能。
❷ 能力翻倍加速:4个月翻一番
4个月翻一番意味着一年3倍。你的AI工具迭代速度远超你的学习速度。别试图追上AI的进步,而是学会站在AI进步的肩膀上——让今天的AI帮你用好明天的AI。
❸ 代码审查比代码编写重要10倍
AI写代码越来越快,但审查质量决定了是8倍还是4倍。1/3的线上事故可以被AI审查提前拦截——这意味着审查本身正在成为最高杠杆的活动。把时间花在审阅上,而不是编写上。
❹ 研究判断力是最后护城河——但正在塌陷
执行层AI已经追平甚至超越人类。64%的概率AI做出更好的研究决策——但还有36%。这36%就是你的差异化空间。深耕领域判断力,比深耕编码技巧更有价值。
❺ AI安全不再是理论问题
1/3的线上事故可以被AI审查提前拦截——这是实实在在的收益。在你的团队中引入AI代码审查,不是"追赶潮流",是"减少事故"。AI安全从学术讨论变成了工程实践。
当AI开始造AI,开发者该站在哪一边?
Anthropic这份报告的标题——"When AI Builds Itself"——用的是When,不是If。
80%的代码由AI编写,4个月能力翻倍,52倍优化碾压人类,64%概率做出更好的研究决策——这不是未来某天的新闻,这是2026年5月已经发生的事实。
对开发者而言,真正的问题从来不是"AI会不会取代我",而是"我能不能在AI还在需要我的窗口期,完成从编码者到审阅者到决策者的角色进化"。
那个窗口正在以4个月为周期加速关闭。
数据来源:Anthropic官方博客《When AI Builds Itself》(2026.6.4)
夜雨聆风