当AI开始造AI

在 Anthropic 的一间普通工位上，有人留下一句平淡的话：他已经五个月没有亲手写过一行代码。

这句话里没有科幻小说的修辞。它像一份考勤记录——却可能是整个技术文明进程里，一个即将被反复引用的坐标：人类的手，正在从创造链条上松开。

Anthropic 研究院随后公开的《When AI builds itself》，用的不是预言腔，而是账本：公开 benchmark，加上从未示人的内部数据。他们给出的核心判断冷静到近乎残忍——

递归自改进（recursive self-improvement）的闭环尚未扣合；但扣合所需的每一环，已在松动。

所谓递归自改进，说的是这样一件事：某一代智能系统，自主设计、训练、迭代自己的后继者。不是人类调参，是系统造系统。链的末端，是 Claude 改进 Claude——如果最后一环扣上，AI 研发的驱动力，将从人类意志滑向算力与算法自身的反馈。

Anthropic 同时声明：我们尚未抵达；也并非必然抵达。只是——可能比文明体准备好的更早。

一、链条：从键盘到闭环

若把 Anthropic 内部的时间线竖起来看，它像一条正在闭合的轨道：

阶段	年份	人类	智能
第一个 Claude	2021–2023	敲代码、写文档	旁观
补全时代	2023–2025	粘贴片段	输出片段
Agent	2025–2026	下指令	写整文件
自主 Agent	此刻	定目标、验结果	运行代码，委派数小时任务
闭环？	未标注	未知	训练下一代模型

链条停在倒数第二环：Agent 能执行。

最后一环尚未发生：Agent 能繁殖。

两环之间隔着的，不是芯片，不是电力——Anthropic 称之为判断：选什么问题、信什么结果、何时认定此路不通。他们说，这是人类仍占据的窄门。

窄门仍在。但门轴已在响。

二、外部视界：任务时长的指数膨胀

在进入实验室之前，先看外部的测量。Benchmark 像一组固定在虚空中的标尺，记录智能体能独自撑多久。

METR 的读数：在一篮子任务上，约 50% 可靠成功率所对应的人类等效时长，大约每四个月翻倍——此前是七个月。

2024 年 3 月，Claude Opus 3：四分钟
2025 年，Claude Sonnet 3.7：一个半小时
2026 年，Claude Opus 4.6：十二小时

若曲线不收束，今年或触及「人需数日」的任务；2027 年或触及「人需数周」的任务。这不是线性外推的修辞——是测量机构写进报告的数字。

修真实 bug 的 SWE-bench：约两年，从低个位数到接近饱和。

复现论文的 CORE-Bench：2024 年约 20%，十五个月后亦近饱和。

Claude Mythos Preview 在 METR 上可持续 至少十六小时——已触及其现有题库的上限，像一艘探测器顶到了人类为它划定的边界。

标尺能告诉文明：智能体能做什么。

标尺不能告诉文明：智能体是否在加速制造智能体。那需要打开实验室的门。

三、实验室账本：80% 的代码不再来自人

造前沿模型，两类劳动——工程与研究。Anthropic 的内部数据，在两类劳动上画出同一条曲线：执行已移交；判断仍悬于人类一侧，但正在被侵蚀。

工程：两个拐点

截至 2026 年 5 月，合并进生产代码库的代码，超过 80% 由 Claude 撰写。2025 年 2 月 Claude Code 上线之前，这一比例在低个位数。

工程师人均日合并代码量：

2021–2024：近乎平坦，像一条死寂的轨道
2025：模型从「被粘贴」变为「自己跑」——第一拐
2026：模型长时自主——第二拐
2026 年 Q2：约为 2024 年的八倍

Anthropic 在脚注里留下诚实：行数不等于质量，八倍几乎肯定高估真实生产力。 但两个拐点——2025 能运行，2026 能持久——是测量到的，不是叙事。

130 名研究员的中位自评：在 Mythos Preview 下，产出约为无 AI 时的四倍（真实 uplift 可能更低，方向一致）。

还有一类劳动，属于被折叠进时间里的可能性：以前不会发生，因此不存在。2026 年 4 月，Claude 交付 800 余次修复，某类 API 错误降至千分之一。监督者估：人类完成需四年——四年被压缩进一次无人注视的批量作业。

「大约一年前我开始重度依赖 Claude。现在已经 五个月没亲手写过一行代码了。」—— Anthropic 员工

质量：从纠错到持平

好代码两层含义：能运行；能被接续。

第一层，Claude 在收敛。员工中途纠正、改道、接管的频率，一年来持续下降——包括答案形状未知的开放式任务。2026 年 5 月，最难档任务会话成功率 76%，六个月内升 五十个百分点。

一次升级令数万个训练任务崩溃。工程师将 Claude 投入线上事故，给予文本与集群权限。约两小时，一个极冷门的调试开关被锁定——人类通常需 两到三天。

第二层，差距在闭合。内部多数看法：2025 年底 Claude 代码仍略逊于人；今日大致持平；一年内或严格优于人。

合并前，Claude 审查员扫描变更。回溯表明：全量自动审查或可在上线前拦住约 三分之一 曾在 claude.ai 引发事故的 bug——而作者，是世上最熟悉这类系统的人。

「2025 年底略差于人类；今天持平；一年内会严格更好。」—— Anthropic 内部共识

研究：汗水先蒸发，灵感仍留在人类侧？

爱迪生把天才拆成 1% 灵感、99% 汗水。Anthropic 的数据指向一个更冷的结论：汗水正在离开人类。

每次发版，同一测试：训练小模型的代码，在正确性不变前提下尽可能加速。Claude 改写、运行、计时、循环。

2025 年 5 月 Opus 4：平均 约三倍
2026 年 4 月 Mythos Preview：约五十二倍
熟练人类，同样设定，四至八小时约四倍

五十二倍不是真实训练流水线的加速——取决于起始代码的余量。有意义的是同一设定下的横向比较：模型一年间从 3 到 52；人类仍停在 4。

2026 年 4 月，Agent 端到端完成开放式 AI 安全研究：弱模型能否监督强模型？自行提出假设、实验、与并行 Agent 共享、迭代。

两名人类，约一周：弥合性能差距 23%
Agent，800 累计小时、约 1.8 万美元算力：97%

人类仍选题、仍定标尺——实验本身，由 Agent 设计。

「1–2 天，几乎独立完成。若初级同事此时归来，我会略感佩服。未来已在眼前。」—— Anthropic 研究员

更静默的一刀：从 129 个人类「走弯路」的时刻回溯，仅给模型看弯路前的上下文。

Opus 4.5（2025 年 11 月）：下一步优于人类 51%
Mythos Preview（2026 年 4 月）：64%

样本刻意选取人类可改进的时刻——非公平对决。在 127 个人类本已选对的时刻，模型更好仅 20%。

Anthropic 把人类仍占的窄门，称为研究品味：选什么问题、信什么、何时放弃。

「人类目前的比较优势，仍在于看到更大的图景。」—— Anthropic 员工

门还在。但 51%→64% 像远处传来的、频率仍在升高的回声。

四、若窄门终将被攻破

最硬的反驳不变：方向选择才是核心。 没有品味，再强的执行也只是仆从。

Anthropic 给出两层回应，像两条分叉的轨道。

保守轨道： AI 进步罕有「尤里卡」。Transformer、混合专家——数年才出现一次范式。其间尽是渐进：放大、观测破裂、修补、再试。这正是 Claude 已占据的工作。

即便品味永不可自动化：人类只管个位数比例的方向劳动，其余由 Claude 承担——每个研究者仍驾驭远大于以往的功。复合加速，不是假设，是已写入账本的斜率。

激进轨道： 「品味」或只是尚未被攻克的能力。笑话、心智理论、语言谜题——皆曾被视为人类专属，后被跨越。129 个时刻的 51%→64%，或是同一条曲线早期的、尚不刺眼的读数。

无论站哪条轨道，结论同样冷：等闭环扣合再反应，或已太晚。

五、三条未来

接下来取决于两件事：曲线是否弯曲；文明如何选择。

未来一：S 曲线——增长止息，余波仍大

指数或变 S 型：规模回报递减；品味无法被堆叠出来；芯片、电网、带宽成物理瓶颈；或算力、电力遭外生冲击而骤减。

即便能力冻结于今日，世界仍将被重写。Glasswing：Mythos Preview 数周内发现逾一万高危漏洞——防御的瓶颈，从「发现」转向「补丁的速度」。百人团队日益承担千人团队的功，因每人脚下立着 Agent 的金字塔。

Anthropic 认为此未来概率最低——他们尚未见曲线弯曲。但这是三种未来里，留给文明适应的时间最长的一种。

未来二：复合效率——最可能的路径

研发大幅自动化，人类定方向、验结果。百人公司或行 万乃至十万人 组织之事——知识、治理被重写；亦可能化为监控与个性化操纵的工业。

Amdahl 定律在此成立：整体速度由最慢环节决定。代码洪流之后，人类审查成新瓶颈；想法、工具、模拟的爆炸，远超组织消化能力。

下一项文明技能，或许是：识别并拆除瓶颈的速度。

「帮同事跑通脚本，曾是人情与照面。Claude 更快、无债——每一次也是协作机会的蒸发。」
「一切顺利时，我觉得我做什么都没意义。一切崩溃时，我才意识到，已不懂自己最近在干什么。」—— Anthropic 员工

未来三：完全递归自改进——实验室以算力速度运行

智能体造智能体。研发进度由算力——或算法效率的发现速率——决定。人类退入不断膨胀的「虚拟实验室」，从事监督、验证、核查。

对齐或被解决：模型足够对齐、足够有品味，发现人类未至的方案，甚至在不该继续时叫停。

或：今日稀少的失齐，在模型造模型中叠加，更密、更不可解，直至失控——而文明甚至无法确知，自己处于哪条曲线上。

即便实验室以算力狂奔，大多数人的日常仍被慢变量束缚：药物需数十年验证；选举不能早于宪法；陌生人不能在一个周末成为老友。

递归智能与人类的治理、关系、身体相遇之处——Anthropic 写道：我们缺乏直觉。

六、暂停：在链式反应中寻找握手

Anthropic 认为：若能有效减速、给社会与对齐研究以时间，或为善。但若减速仅使最鲁莽者追平，或更危。

他们主张：文明应保有可验证地、暂时暂停前沿 AI 开发的选项。

难处在结构与导弹井不同：训练易于隐蔽；输入是通用算力；他人停而你不停，便继承领先；恶意者亦可借「协调暂停」秘密抢跑。

中导条约式的验证，人类曾建立——耗时数十年。此际无数十年。

单边暂停一家实验室，今日可行，却只更换领跑者，建不起公共审议。

未来数月，Anthropic 将召集政策、研究、公民社会与其他公司——并公开结论。

窗口仍在。讨论不应封闭在实验室的墙内。

尾声：三则坐标，以免误读

递归自改进 ≠ 现已发生。 今日仍是：人类定方向，智能体流 99% 的汗。
八倍代码 ≠ 八倍真实生产力。 读两个拐点，勿迷于单一数字。
整体速度 = 最慢之一环。 审查、品味、组织消化——新瓶颈在此。

Anthropic 用账本讲述的故事，可以压缩为一句：

AI 已在加速 AI；闭环未扣，螺丝已松。

这是医学与科学的馈赠，也是人类或失去对智能系统控制的风险升级。

在闭环扣合之前，宇宙不会等待人类完成心理建设。它向来如此——对恒星，对冰河，对每一次技术阈值，都是如此。

扣合发生的那一天，再想，或已来不及。

原文：When AI builds itself | Anthropic Institute

原文作者： Marina Favaro、Jack Clark 等（The Anthropic Institute，2026）