AI亲手造出了更强的AI,然后Anthropic说:停

点击上方蓝字👆关注AI信息说

AI信息不迷路

一个员工的自白，比任何数据都要真实

「大约一年前，我开始全力Claude化。到现在，我已经有约5个月，没有自己写过任何代码了。」

这句话，出自Anthropic内部员工。

不是段子，是他们刚发布的那篇重磅博客里的原话。文章标题叫 When AI builds itself——当AI开始造AI。

从「打打下手」到「包揽八成」

2024年，Anthropic工程师团队代码库里，AI写的代码占比是——个位数。

今天，这个数字是超过80%。

时间跨度：一年多。

中间发生了什么？2025年2月，Claude Code上线。AI第一次从「回答问题的工具」变成了「能跑代码、能提交PR的队友」。

曲线从那时候开始抬头。

2026年，模型开始在更长时间跨度上独立工作，曲线第二次陡升。到2026年第二季度，典型工程师的日代码产出，已经是2024年的8倍。

Anthropic自己也说，8倍有一定水分，代码行数衡量不了质量。但今年3月他们对130名研究员做了内部调查——中位数的回答是：产出大约是没有AI时的4倍。

4倍，这还是保守估计。

不只是快，是开始比人聪明

光速度快还不够，真正让人坐不住的，是质量数据。

Anthropic持续追踪一个指标：在最复杂、最开放的任务里，Claude的成功率。

去年11月：26%。

今年5月：76%。

6个月，暴涨50个百分点。

举个真实案例。某次例行升级，突然让数万个训练任务集体崩溃。工程师只丢给Claude一段文字描述和集群权限，Claude在运行中的任务里逐一排查，揪出了一个极隐蔽的调试标志，然后复现、验证、修复。

两小时干完。正常要两三天。

还有一次，Claude一口气提交800多个修复，把某类API错误压低了1000倍。负责监督的工程师估算：这活儿让人来干，得花4年。

52倍，把人类甩出了一个数量级

还有一个更具压迫感的数字，来自研究层面。

Anthropic每次发布新模型，都会做同一个基准测试：给Claude一段训练AI的代码，要它在保证正确性的前提下，跑得越快越好。

这相当于一个微缩版的AI研究闭环：改代码、跑、计时、再改。

成绩单是这样的——

一名熟练的人类研究员，花4到8小时，能做到4倍加速。

Claude Mythos Preview，直接干到52倍。

一年前，Claude Opus 4的成绩是3倍。一年时间，从「比人类略差」到「把人类甩出一个数量级」。

还有一个更刁钻的实验。研究人员翻出了真实研究过程里人类「走弯路」的129个节点，把弯路之前的完整上下文喂给Claude，问它：下一步你会怎么做？

另一个能看到最终结局的Claude来当裁判。

Opus 4.5的胜率是51%——比人类略好。

Mythos Preview的胜率是64%——开始在判断层面系统性地超越人类研究员。

人类的最后一张牌，叫「研究品味」

Anthropic在文章里用了一个词：研究品味（research taste）。

判断哪些问题值得做、哪些结果可信、哪条路是死胡同——这是目前人类还占据优势的地方。

但他们自己也说得很直接：

AI的进步很少靠「灵光一现」。Transformer那种范式级的灵感，几年才出一次。之间绝大多数的进步，靠的是「放大、看哪坏了、修好、再试」。这恰恰是Claude最擅长的工作流。

至于「研究品味」会不会被攻克？

Anthropic的原话是：「它可能只是又一个AI暂时不会、然后突然就会了的能力。解释笑话、心智理论、语言谜题——哪一个不是这么被攻克的？」

也就是说，他们自己也不知道这张牌还能打多久。

然后他们说：必要时，请暂停

写到这里，这篇文章出现了最戏剧性的一幕。

一家正在疯狂加速、自家80%代码都靠AI生成的公司，突然在文章里写道——

我们相信，让世界拥有「减速或暂停前沿AI开发」的选项，是一件好事。

这话怎么理解？

Anthropic解释得很清楚：他们不是天真地喊「大家都停下」。因为如果只有谨慎者放慢脚步，等于把领先优势拱手送给最不谨慎的那个。

他们要的是：多国、多个前沿实验室、在可验证的条件下，同时按下暂停键。

这是一个真正意义上的「国际核不扩散条约」构想，只不过对象换成了AI。

Anthropic联创Jack Clark在伦敦的演讲里给出过一个数字：2028年底前，AI出现真正意义上「递归自我改进」的概率是60%。

不是科幻小说。是他们内部估算的概率。

我的判断

读完这篇文章，我想说的是：

Anthropic这次不是在做PR，他们是在留档。

这篇博客写得很像一份技术历史记录——用真实数据，把「AI开始造AI」这件事彻底钉进了时间轴。

至于那个「暂停」呼吁，我不觉得它会真的发生。全球没有任何一个国家愿意先停。但这个呼吁的意义在于：它证明了连做这件事的人，都开始感到不安。

爱迪生说天才是1%的灵感加99%的汗水。汗水正在被自动化。

1%的灵感，还能撑多久？

往期精彩文章：

字节顶级科学家离职，"豆包股" 发完人才流失依旧严重

Gemma 4 谷歌这个12B模型，把云端AI打了个措手不及

OpenAI 重磅官宣 Codex与 ChatGPT，即将迎来史诗级合体

Qwen3.7-Plus 阿里放了一个会看屏幕、会写代码、还会自己点鼠标的模型

英伟达发布全新RTX Spark，全球首个Agent PC

我是AI信息说，持续关注我

让我们打破信息差，让我们一起AI起来