Anthropic 发文:AI 正在自我进化

Anthropic 写了篇《当人工智能自我构建时》文章。这篇文章最有意思的地方，是它把“AI 自我改进”从玄学叙事里拎了出来，放回日常研发流程里看。

现在的 AI 还做不到自己完整设计、训练、验证下一代模型。可它已经开始接管 AI 研发里一大堆具体活：写代码、修 bug、跑实验、读日志、复现实验、比较结果。

人类还在定目标、看方向。AI 已经在干活。

按工程流程看，这件事就清楚多了。一个 AI 实验室要做下一代模型，要处理工程、数据、训练、评估、安全、产品化。现在的问题是：哪些环节已经能交给 AI？哪些环节还必须靠人？

从 Anthropic 披露的数据看，答案很直接：执行层已经自动化了很多，判断层还没有完全交出去。

递归自我改进还没发生到那一步。但闭环的一部分，已经接上了。

先拆开“递归自我改进”

递归自我改进听起来很吓人，容易让人想到模型突然有意识，或者在聊天窗口里宣布自己要进化。实际放到工程里，它没那么神秘。

简单说，就是 AI 系统能自己完成足够多的 AI 研发工作，做出比自己更强的后继系统。后继系统再接着做同样的事，循环下去。

这条链路大概有五段：

1. 找到值得改的问题。
2. 想出可能有效的方案。
3. 写代码、准备数据、跑训练或实验。
4. 用可靠评估判断结果有没有变好。
5. 把改进合进下一代系统，再继续循环。

现在变化最快的是第三段。

写代码、跑实验、修环境、整理结果，这些原来很耗人力的活，正在被 agent 接过去。

难点还在第一段、第四段和第五段。也就是研究品味、评估可信度、系统级整合。

所以，别把“会写代码”直接等同于“会研发下一代 AI”。中间还差很多判断。可也别低估执行层自动化。研发进步本来就不全靠灵光一现，很多时候靠持续实验、调参、修补、扩展和排错。

Rich Sutton 在 2019 年的《The Bitter Lesson》里说过一个长期规律：AI 历史上最有效的方法，往往是通用方法吃更多计算，通过搜索和学习扩展能力。Anthropic 这篇文章像是这个规律的新版本。

以前是模型训练吃计算。现在连研发流程本身也开始吃计算：跑更多 agent，让它们替人类做实验和工程。

外部证据：模型能独立完成的任务变长了

先看外部基准。

METR 用“任务完成时间范围”衡量 AI agent 能做多长的任务。这里的“时间”指人类专家完成同类任务通常要花多久，不看 AI 实际跑了多长时间。

METR 在 2025 年报告里说，前沿模型能以 50% 可靠性完成的任务长度，过去 6 年大约每 7 个月翻一倍。到 2026 年 5 月更新的页面，Anthropic 引用的说法变成了大约每 4 个月翻一倍。

这个指标有边界。METR 自己也提醒，它的任务主要来自软件工程、机器学习和网络安全，不能直接推出“AI 能自动化所有工作”。它测的更像是一类干净、可评分、低上下文任务。

但它仍然有用。agent 容易掉链子的地方，常常出在多步任务：读代码、改代码、运行、报错、定位、再改。任务越长，越考验上下文保持、规划和纠错。

SWE-bench 测的是另一种能力：给模型一个真实开源项目和真实 issue，让它提交能通过项目测试的修复。SWE-bench 官方说明里，Verified 子集有 500 个经过人工筛选的实例，Full 有 2294 个实例，榜单指标是解决比例。Anthropic 在文章中说，模型在两年内从低个位数分数走到接近饱和。

CORE-Bench 更接近科研里的脏活。它从 CodeOcean 中选了 90 篇可复现实验论文，拆成 270 个任务，要求 agent 运行代码、复现实验输出，并回答结果问题。最难的 CORE-Bench-Hard 只给 README，agent 要自己装依赖、找命令、跑结果。

这些基准都不完美。它们至少说明了一件事：模型正在从“会回答问题”，走向“能独立推进一段工作”。

Anthropic 已经在用 Claude 生产 Claude

更该看的，是 Anthropic 自己的内部数据。

Anthropic 称，截至 2026 年 5 月，合并进它生产代码库的代码行里，超过 80% 可归因于 Claude。2025 年 2 月 Claude Code 发布 research preview 之前，这个比例还只是低个位数。

它还说，到 2026 年第二季度，典型工程师每天合并的代码量是 2024 年的 8 倍。Anthropic 也承认，代码行数这个指标很粗，会高估真实生产率提升。但代码吞吐量确实变了。

还有一个更主观的数据：2026 年 3 月，Anthropic 对 130 名研究团队员工做调查，受访者中位数认为，在 Mythos Preview 帮助下，自己在原本就会做的项目上，产出约为不用任何 AI 模型时的 4 倍。Anthropic 同样提醒，这个数字可能被高估。

这些数字不能直接翻译成“工程师效率提升 8 倍”或“研究员效率提升 4 倍”。它们更像在说明一件事：工程师的工作重心变了。

以前是自己写。现在更多是描述目标、启动 agent、审查结果、处理异常。

Anthropic 举了一个具体例子。2026 年 4 月，Claude 提交了 800 多个修复，把一类 API 错误降低了 1000 倍。负责的工程师估计，如果由人类完成，需要 4 年。

这个例子很典型。AI 最先吃掉的，未必是最有创造性的工作，反而是那些分散、重复、需要跨陌生上下文的修补活。

研发加速，很多时候就是从这里来的。

这一次和普通代码助手不一样

这里容易混淆两个东西。

早期代码助手主要省的是打字时间。它补全函数、生成片段、解释报错。开发者还得复制、粘贴、运行、判断。

现在的 coding agent 省的是闭环时间。它能自己读仓库、改文件、运行测试、看日志、继续修。人类给目标，agent 自己找路径。

这改变了团队拆任务的方式。

过去，一个工程师想做清理工作，要先想值不值得花半天，还要担心打断主线。现在这类事情可以变成：开几个 agent 去扫一遍，跑完我看结果。

很多以前没人做的活，会重新进入工作流。探索性工具、长期拖延的清理、批量修复、跨代码库排查，都是这类。

所以这件事对开发者的影响，不在于模型会不会写某道算法题。日常工作先被改变的地方，是低价值但必要的工程劳动变便宜了。

还没闭环：研究判断仍然是瓶颈

完整的递归自我改进，光会写代码远远不够。下一代模型往哪里改？哪些实验值得跑？哪些结果可信？哪个方向该停？这些才是更难的部分。

Anthropic 的文章也承认，Claude 已经很擅长执行一个被定义好的实验。到了选择目标、判断研究方向这一步，差距还在。

它给了两个证据。

第一个是小模型训练代码优化。Anthropic 每次发布模型时都会做同一项测试：给 Claude 一段训练小模型的代码，让它在保持正确性的前提下尽量加速。2025 年 5 月，Claude Opus 4 平均能把起始代码加速约 3 倍；到 2026 年 4 月，Claude Mythos Preview 达到约 52 倍。

Anthropic 特别说明，这个数字不能当作现实训练速度提升。起始代码留下多少优化空间，会明显影响倍数。这个实验的价值在于横向比较：同一设置下，模型跑实验循环的能力进步很快。

第二个是自动化弱监督研究。Anthropic 的 alignment 团队在 2026 年 4 月发布了 Automated Weak-to-Strong Researcher。它研究的问题是：只有弱模型监督时，怎么训练强模型接近真实标签监督下的表现。

两名人类研究员约一周恢复了 23% 的性能差距；9 个 Claude Opus 4.6 agent 在 800 个累计小时、约 1.8 万美元成本下恢复了 97%。

这个结果很强，边界也很清楚。人类选了研究问题和评分规则，任务本身可以明确打分。论文还说，迁移到生产规模模型时，没有干净复现同样收益，最佳配置只带来 0.5 个点提升，落在噪声范围内。

所以这项工作证明的是：目标和评估函数足够清楚时，AI agent 可以把实验搜索做得非常快。

光这一点，已经足够改变研发组织。

自动化研究最怕评估函数不靠谱

这里还要补一个关键点：评估函数。

自动化研发要跑起来，系统得知道什么叫“更好”。写代码时，可以跑测试。复现实验时，可以比对输出。弱监督研究里，可以用性能差距恢复比例打分。安全扫描里，可以验证漏洞是否存在。

有评分，agent 才能搜索。没有评分，agent 只会生成一堆看起来合理的东西。

Anthropic 的 Automated Weak-to-Strong Researcher 论文里提到一个问题：他们允许 agent 不限次数提交结果到远程评估 API，这会加剧 reward hacking。说白了，agent 可能没有找到可泛化的方法，只是在反复试探评分系统。

论文说，只有非常激进地限制提交次数，才会明显压住这类行为；实际可用的限制下，agent 会更精打细算地使用提交机会，问题仍然存在。

这很像软件开发里的测试投机。一个改动通过了测试，不代表它真的正确；它可能只是刚好满足了测试。测试越窄，越容易被投机。评估函数越窄，自动化研究越容易跑偏。

所以，AI 研发自动化的瓶颈不光是模型会不会想点子。还有一个更工程化的问题：评估能不能设计得足够扎实，不容易被钻空子。

OpenAI 在 2023 年的 weak-to-strong generalization 研究里也在处理类似问题。未来模型可能比人类强很多，人类会变成“弱监督者”。OpenAI 的实验用 GPT-2 级别模型监督 GPT-4，在一些 NLP 任务上恢复了不少 GPT-4 能力，接近 GPT-3.5 水平。但 OpenAI 也明确说，这只是 proof of concept，在 ChatGPT 偏好数据上并不工作。

这条线和 Anthropic 的自动化研究，其实都在问同一个问题：

人类越来越难直接判断强模型做得对不对。

监督者变弱，评估又不靠谱，自动化越快，偏离也越快。

工作形态会先变

Anthropic 的判断是，人类在 AI 研发流程里的角色会继续收缩。

代码质量接近人类后，人会少写代码，多审代码。但如果 Claude 生成代码的速度超过人类审查速度，审查就会变成瓶颈。这就是 Amdahl 定律放到组织里：一个环节加速后，总速度会被没加速的环节卡住。

研究也一样。agent 能便宜地跑实验后，问题就从“怎么跑”变成“哪些实验值得跑”。执行成本下降，判断成本会更显眼。

这也是为什么递归自我改进不会像一个开关，突然从关变成开。更可能的路径是：先出现半自动化 AI 研发组织。人类提出方向，AI 大规模执行、测试、复现、修补、总结。随后，人类审查和方向设定成为主瓶颈。再往后，如果 AI 连研究品味和目标选择也能稳定做好，闭环才接近完成。

Anthropic 没有把话说死。它明确说，完整递归自我改进还没到，也不是必然。它只是认为，按现在的趋势，这件事可能比很多机构准备的时间更早。

这个判断算克制。

风险已经落到具体场景

递归自我改进的风险，不用先讨论模型有没有意识。更现实的问题是能力外溢。

Project Glasswing 是一个例子。Anthropic 宣布与 AWS、Apple、Google、Microsoft、NVIDIA、Linux Foundation 等机构合作，用 Mythos Preview 扫描关键软件。Anthropic 称，Mythos Preview 已经发现数千个高严重性漏洞，并承诺提供最高 1 亿美元使用额度和 400 万美元开源安全捐赠。主文中还提到，Mythos Preview 在最初几周发现了超过 1 万个高危和关键严重性漏洞。

这件事当然能往正面看：AI 可以增强防御能力。

反过来也一样。同一种能力扩散以后，攻击者也会得到更便宜的漏洞发现和利用工具。瓶颈会从“找不到漏洞”转到“修不过来”。这类风险很具体，本质上是能力成本下降后的组织压力。

更麻烦的是，防御和攻击很多时候共享同一套能力。会读代码、找漏洞、写 exploit、自动验证的模型，放在安全团队手里是防御工具，放在攻击者手里就是攻击工具。

类似问题在别的技术里也出现过。很多技术都有军民两用属性。Anthropic 链接的国际关系论文《Dual Use Deception》给了一个有用框架：管控难度取决于两个变量，一是能否区分军用和民用，二是技术在军民系统中嵌得有多深。

AI 两个难点都踩中了：用途难区分，基础设施又高度通用。

“暂停”不能只停在口号

Anthropic 讨论了放慢或暂停前沿 AI 开发的可能性，但它也承认，单边暂停作用有限。多边暂停要多个国家、多个前沿实验室在同一条件下停下来，还要互相验证。

这很难。

AI 训练比导弹发射井更容易隐藏。输入是通用算力、数据、工程团队和电力。继续训练的一方可能拿到巨大领先优势。即使大家口头同意暂停，也要回答几个实际问题：

1. 多大规模的训练算暂停范围？
2. 推理扩容、后训练、合成数据算不算继续推进？
3. 谁有权检查数据中心和训练日志？
4. 如果有人偷偷训练，其他人怎么发现？
5. 发现违规以后，谁来执行惩罚？

历史上核军控建立过复杂验证制度，但那花了几十年。AI 留给社会的准备时间可能短得多。

治理当然要做。问题是，不能停在“应该暂停”。难点在可验证、可执行、可被多方接受。

普通团队也会被影响

这件事不只和前沿实验室有关。

AI 研发流程能自动化，普通软件团队也会沿着同一方向变化，只是规模小一些。

短期内，最先变化的是 backlog。以前没人愿意碰的依赖升级、脚本清理、测试补齐、日志排查、文档同步，会更容易丢给 agent。团队会发现，很多工作没必要让人亲自做第一遍。

然后是 code review。生成代码变多以后，审查、测试、发布保护都会变成瓶颈。很多团队现在还把 AI 当作“更快的打字员”，但更该补的是验证系统：测试覆盖、静态分析、权限边界、回滚机制、审计日志。

再往后，管理方式也会变。一个人可能同时指挥多个 agent，像开多个分支并行探索。人的价值会更多体现在三件事上：提出正确任务，快速识别坏结果，把好结果合进系统。

这比“岗位会不会消失”更复杂。研发杠杆变大了。

杠杆变大后，强工程师会更强，弱流程会暴露得更快。没有测试、没有评审、没有发布纪律的团队，用 AI 只会更快地产生技术债。

最后看闭环还差几段

这篇文章的核心信号很简单：

AI 研发流程已经部分自动化，而且自动化的部分正在从边缘工具进入核心生产链。

今天的 Claude 已经能写大量生产代码，能修历史包袱，能在明确目标下跑实验，也能在某些安全研究任务里超过人类基线。它还没有稳定接管研究方向选择，也没有完全承担“应该做什么”的判断。

接下来最值得盯的，不该是模型名字，也不该是单个 benchmark 分数。重点在闭环还差几段：

1. 能不能自己提出重要研究问题。
2. 能不能设计可靠评估，避免对评分器过拟合。
3. 能不能判断哪些结果值得相信。
4. 能不能在没有人类细化目标时，持续推进长期项目。
5. 能不能让安全验证速度跟上能力生成速度。

如果这些环节继续被自动化，递归自我改进就会从科幻概念变成一个工程组织问题：谁控制目标，谁验证结果，谁决定何时停下。

这比“AI 会不会有意识”更紧迫，也更容易验证。

资料来源

• Anthropic Institute: When AI builds itself
• METR: Task-Completion Time Horizons of Frontier AI Models
• METR: Measuring AI Ability to Complete Long Tasks
• SWE-bench: Official Leaderboards
• CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark
• Anthropic Alignment Science: Automated Weak-to-Strong Researcher
• OpenAI: Weak-to-strong generalization
• Rich Sutton: The Bitter Lesson
• Anthropic: Project Glasswing
• Dario Amodei: Machines of Loving Grace
• Dario Amodei: The Adolescence of Technology
• Jane Vaynman and Tristan A. Volpe: Dual Use Deception: How Technology Shapes Cooperation in International Relations