6 月 4 日,Anthropic 的智库发了一篇长文,标题叫《当 AI 开始自我迭代》
核心信息就一句话:Anthropic 正在用 Claude 加速造 Claude,而且速度超出预期。
他们把 AI 研发的演进分成五个阶段,每个阶段人类干的活都比上一个阶段少。
五个阶段,人类的存在感越来越低
2021-2023:人写一切。 和其他科技公司无异,人在笔记本上写代码和文档。
2023-2025:AI 写片段,人复制粘贴。 聊天机器人帮忙生成短代码,人把它们拼起来。
2025-2026:AI 写文件,人审查。 Claude Code 发布,Agent 能独立编写和编辑完整文件。
现在:AI 跑实验,人定方向。 Agent 已能自己运行代码,并将数小时的工作委托给其他 Agent。
20XX:AI 造 AI,人只监督。 Claude 自己构建和训练新模型,人类变为监督者。

图注:从上到下,每个阶段的演进。来源:Anthropic
Anthropic 自己说:我们还没有进入第五阶段,也不一定必然进入。但前四个阶段,已经在发生了。
内部数据,表明这件事有多快
代码:80% 和 8 倍。 截至 2026 年 5 月,Anthropic 合并到代码库的代码,超过 80% 由 Claude 撰写。Claude Code 发布前这个数字是个位数。工程师每人每季度合并的代码量,是 2021-2025 年的 8 倍。不是加班加出来的,是人指挥 AI,AI 干活。

图注:Anthropic 工程师人均代码合并量变化,两个拐点对应 Claude Code 发布和模型自主化。来源:Anthropic
代码质量也在追。Anthropic 自己的判断:2025 年末 Claude 写的代码还比人略差,现在基本持平,预计年内反超。一位员工说:「已经五个月没亲手写过代码了。」
实验:从 3 倍到 52 倍。 Anthropic 内部有一套标准测试:给 Claude 一段训练小模型的代码,让它自己想办法跑得更快。2025 年 5 月,最好模型做到了 3 倍加速。2026 年 4 月,做到了 52 倍。人类研究员的对照水平是 4 倍。
今年 4 月的一篇论文展示了更狠的场景:把「弱模型能否可靠监督强模型」这个开放问题丢给 Claude Agent,让它自己干。两组人类花一周补回了 23% 的差距。Agent 在 800 小时内补回了 97%,用了约 1.8 万美元算力。
判断力:从 51% 到 64%。 Anthropic 从真实 Claude Code 会话中挑了 129 个「研究者走偏了」的时刻。只给 Claude 看走偏前的信息,问它下一步该怎么做。2025 年 11 月,最好模型赢了人类 51% 的次数。2026 年 4 月,这个数字变成了 64%。

图注:Claude Code 在不同难度任务上的成功率,开放式任务从 26% 升至 76%。来源:Anthropic
人类目前保留的优势,在于看到更大的图景、超越眼前任务的限制去思考。
未来的三种可能
趋势停滞。 指数曲线变成 S 曲线,到了天花板。需要新架构、新能源、新范式。Anthropic 并不信——每一个能测量的能力都还在加速。
持续加速,人仍掌舵。 AI 干 99% 执行,人负责选方向和做判断。100 人公司能做十万人的活。Anthropic 认为这是最可能进入的场景,也是现在就该准备的。
完全递归式自我改进。 AI 自主设计下一代 AI。进度完全由算力决定。人类退到监督位置。Anthropic 说对这个世界「没有好的直觉」。

图注:九个模型的「下一步判断」能力对比,Mythos Preview 达 64%。来源:Anthropic
呼吁暂停训练模型,跑最快的人最先看到了悬崖
文章最受争议的部分是关于「暂停」的讨论。原文措辞很讲究:不是「呼吁全球立即停」,而是「如果存在一套全球可验证的协调机制,我们会停。单方面停只会让不谨慎的人追上来。」
翻成大白话:我们是领先者,能看到这条路有多快,想踩刹车。但如果只有我们踩、别人不踩,我们就会从领先者变追赶者。所以需要所有人一起踩。这不是虚伪,这是囚徒困境。Anthropic 比任何人都清楚这道题的难度——训练跑比导弹发射井容易隐藏,投入品都是通用芯片。核武器核查体系花了几十年,AI 没有那么多时间。
引用链接
[1] When AI builds itself: https://www.anthropic.com/institute/recursive-self-improvement
夜雨聆风