点击上方蓝字👆关注AI信息说
AI信息不迷路

一个员工的自白,比任何数据都要真实
「大约一年前,我开始全力Claude化。到现在,我已经有约5个月,没有自己写过任何代码了。」
这句话,出自Anthropic内部员工。
不是段子,是他们刚发布的那篇重磅博客里的原话。文章标题叫 When AI builds itself——当AI开始造AI。
从「打打下手」到「包揽八成」
2024年,Anthropic工程师团队代码库里,AI写的代码占比是——个位数。

今天,这个数字是超过80%。
时间跨度:一年多。
中间发生了什么?2025年2月,Claude Code上线。AI第一次从「回答问题的工具」变成了「能跑代码、能提交PR的队友」。
曲线从那时候开始抬头。

2026年,模型开始在更长时间跨度上独立工作,曲线第二次陡升。到2026年第二季度,典型工程师的日代码产出,已经是2024年的8倍。
Anthropic自己也说,8倍有一定水分,代码行数衡量不了质量。但今年3月他们对130名研究员做了内部调查——中位数的回答是:产出大约是没有AI时的4倍。
4倍,这还是保守估计。
不只是快,是开始比人聪明

光速度快还不够,真正让人坐不住的,是质量数据。
Anthropic持续追踪一个指标:在最复杂、最开放的任务里,Claude的成功率。
去年11月:26%。
今年5月:76%。
6个月,暴涨50个百分点。
举个真实案例。某次例行升级,突然让数万个训练任务集体崩溃。工程师只丢给Claude一段文字描述和集群权限,Claude在运行中的任务里逐一排查,揪出了一个极隐蔽的调试标志,然后复现、验证、修复。
两小时干完。正常要两三天。
还有一次,Claude一口气提交800多个修复,把某类API错误压低了1000倍。负责监督的工程师估算:这活儿让人来干,得花4年。
52倍,把人类甩出了一个数量级
还有一个更具压迫感的数字,来自研究层面。
Anthropic每次发布新模型,都会做同一个基准测试:给Claude一段训练AI的代码,要它在保证正确性的前提下,跑得越快越好。
这相当于一个微缩版的AI研究闭环:改代码、跑、计时、再改。
成绩单是这样的——
一名熟练的人类研究员,花4到8小时,能做到4倍加速。
Claude Mythos Preview,直接干到52倍。

一年前,Claude Opus 4的成绩是3倍。一年时间,从「比人类略差」到「把人类甩出一个数量级」。

还有一个更刁钻的实验。研究人员翻出了真实研究过程里人类「走弯路」的129个节点,把弯路之前的完整上下文喂给Claude,问它:下一步你会怎么做?
另一个能看到最终结局的Claude来当裁判。
Opus 4.5的胜率是51%——比人类略好。
Mythos Preview的胜率是64%——开始在判断层面系统性地超越人类研究员。
人类的最后一张牌,叫「研究品味」
Anthropic在文章里用了一个词:研究品味(research taste)。
判断哪些问题值得做、哪些结果可信、哪条路是死胡同——这是目前人类还占据优势的地方。
但他们自己也说得很直接:
AI的进步很少靠「灵光一现」。Transformer那种范式级的灵感,几年才出一次。之间绝大多数的进步,靠的是「放大、看哪坏了、修好、再试」。这恰恰是Claude最擅长的工作流。
至于「研究品味」会不会被攻克?
Anthropic的原话是:「它可能只是又一个AI暂时不会、然后突然就会了的能力。解释笑话、心智理论、语言谜题——哪一个不是这么被攻克的?」
也就是说,他们自己也不知道这张牌还能打多久。
然后他们说:必要时,请暂停
写到这里,这篇文章出现了最戏剧性的一幕。
一家正在疯狂加速、自家80%代码都靠AI生成的公司,突然在文章里写道——
我们相信,让世界拥有「减速或暂停前沿AI开发」的选项,是一件好事。
这话怎么理解?
Anthropic解释得很清楚:他们不是天真地喊「大家都停下」。因为如果只有谨慎者放慢脚步,等于把领先优势拱手送给最不谨慎的那个。
他们要的是:多国、多个前沿实验室、在可验证的条件下,同时按下暂停键。
这是一个真正意义上的「国际核不扩散条约」构想,只不过对象换成了AI。
Anthropic联创Jack Clark在伦敦的演讲里给出过一个数字:2028年底前,AI出现真正意义上「递归自我改进」的概率是60%。
不是科幻小说。是他们内部估算的概率。
我的判断
读完这篇文章,我想说的是:
Anthropic这次不是在做PR,他们是在留档。
这篇博客写得很像一份技术历史记录——用真实数据,把「AI开始造AI」这件事彻底钉进了时间轴。
至于那个「暂停」呼吁,我不觉得它会真的发生。全球没有任何一个国家愿意先停。但这个呼吁的意义在于:它证明了连做这件事的人,都开始感到不安。
爱迪生说天才是1%的灵感加99%的汗水。汗水正在被自动化。
1%的灵感,还能撑多久?
往期精彩文章:
Gemma 4 谷歌这个12B模型,把云端AI打了个措手不及
OpenAI 重磅官宣 Codex与 ChatGPT,即将迎来史诗级合体
我是AI信息说,持续关注我
让我们打破信息差,让我们一起AI起来
夜雨聆风