AI开始造AI了,软件行业该怎么办?——Anthropic呼吁停止AI研究!

AI开始造AI了，软件行业该怎么办？

读Anthropic最新报告《When AI builds itself》有感

一张图，说清楚了整件事

Anthropic的这篇报告，这张图我觉得比正文所有的数字都直观。表达是"人类和AI一起造AI"这件事，是怎么一步步演变的。

Anthropic递归自我改进示意图

2021–2023：Building the first Claude最早期，Anthropic的工程师和任何其他科技公司没什么区别——人坐在电脑前，写代码，造AI。人是唯一的生产力。

2023–2025：Chatbots有了ChatGPT和早期Claude之后，工程师开始用聊天机器人辅助工作——让它生成一段代码，复制粘贴到编辑器里。AI是工具，人还是主体。

2025–2026：Coding agentsAI Agent出现了，可以自己写代码、改代码，有时候整个文件都是它写的。人的角色开始从"写"变成"改"和"审"。

今天：Autonomous agents现在，AI Agent不只是写代码，还能自己运行代码、把任务分派给其他Agent，独立干几个小时的活。人更多是在"定目标"，而不是"做事情"。

20XX?：Closing the loop这是图的最后一行，也是整篇报告最让人背脊发凉的部分——未来，AI可能直接参与训练下一代AI。那个红色的反向箭头，指向的是：Claude改进Claude自己。

这个循环一旦闭合，人类在这个链条里的角色就会变得很微妙。

数字说话：已经在发生的

图是示意，但Anthropic在报告里给出了一堆具体数字，读下来我觉得有几个特别值得认真对待。

任务时长，每四个月翻一番

外部测评机构METR有一个指标：AI能独立、可靠完成的连续任务时长。这个数字正在以每四个月翻一番的速度增长——而且近期比之前还快了。

"In March 2024, Claude Opus 3 could complete software tasks that take humans about four minutes to complete. A year later, Claude Sonnet 3.7 managed tasks that took about an hour and a half. A year after that, Claude Opus 4.6 managed 12-hour tasks."

2024年3月能干4分钟的活，一年后能干1.5小时，再一年后能干12小时。按这个曲线，今年内AI可能就能独立处理需要人类花数天的任务；2027年，可能是数周。

代码测试，两年从个位数到满分

SWE-bench是个真实的软件工程测试：给AI一个真实的开源代码库加一份bug报告，让它写出能修复问题并通过测试的代码。两年前AI的得分还在个位数百分比，现在接近满分。

还有一个CORE-Bench，测AI能不能重现已发表的学术论文结果——这是AI独立做科研的前提。2024年时AI的成功率只有20%，十五个月后，这个测试也基本饱和了。

我对后一个数字的感受比前一个更强——"能重现别人的研究"，是"能做原创研究"的门槛，这个门槛已经过了。

Anthropic内部，最扎心的数字

"As of May 2026, more than 80% of the code we merge into Anthropic's codebase was authored by Claude."

2026年5月，Anthropic合并进代码库的代码，超过80%是Claude写的。2025年2月之前，这个数字还在个位数。

更直观的对比：2026年第二季度，Anthropic工程师每天合并的代码量是2024年的8倍。

Anthropic自己也说了，代码行数是个粗糙指标。但即便打五折，这个趋势已经不是"AI辅助编程"，而是"人辅助AI编程"了。

Anthropic呼吁停止AI研究

读这篇报告，我有一个明显的感受：这是一篇有公关功能的技术报告。Anthropic花了大量篇幅展示自家模型有多能打，在快结束的地方，才用几段话提到了这两天媒体都在热议的事：Anthropic呼吁停止AI研究

"We believe it would be good for the world to have the option to slow or temporarily pause frontier AI development to enable societal structures and alignment research to keep up with the advance of the technology."

"我们认为，如果世界能够拥有选择减慢或暂时暂停前沿AI开发的选项，对世界来说将是好事——以便让社会结构和对齐研究能够跟上技术发展的步伐。"

而且他们还解释了为什么单方面暂停没用（只会改变谁是领跑者），为什么多边协调极其困难（比核武器条约还难，因为训练计算比导弹发射井容易隐藏得多），然后说会组织一些对话、发表一些研究。

这个逻辑我认为是诚实的。但结果是：文章的叙事重心还是落在"我们跑得最快"上，而不是"我们是不是应该停一停"上。这种比例失调，我认为不是偶然的，多少有点“资本软文”的意思。

软件行业，会变成什么样？

OK，以上是背景。现在来记录一下这个公众号应该思考的部分：这件事对软件行业意味着什么。这些是我的判断，不一定对。

生产和交付方式：人的角色在上移

Anthropic内部发生的事，我认为只是整个行业的预演（正在上演）。

一个工程师今天的工作画面，可能已经是这样的：打开Claude Code，用自然语言描述需求，然后工作群疯狂灌水（或者给自己疯狂灌水），回来review AI生成的代码，改10%的问题，合并！

显然，人在这件事里的角色变了。软件工程师正在从"建筑工人"变成"建筑师+质检员"。

报告里引用了一个Anthropic内部工程师的心声，我觉得说出了很多人不愿意承认的真实状态：

"On days where everything works well, I can't help but think nothing I do matters, everything is automated and better and faster than I ever will be."
"在一切都顺利的日子里，我忍不住觉得我做的什么都不重要了，一切都被自动化了，而且比我做的更好更快。"

这是全球最顶尖AI公司的工程师说的。对普通软件公司的普通工程师来说，这个冲击只会更大，不会更小。但是我个人坚持认为，这个冲击主要是技术层面，国内的软件工程师技术只是一部分···

市场需求：不是功能，是判断力

过去，软件产品有一道壁垒叫"实现成本"——做一个功能需要时间、需要工程师、需要钱。但当AI把实现成本拉到接近于零，这道壁垒就消失了。

消失之后，很多人的第一反应是：那"懂业务"就变得更值钱了。我觉得这个判断只对了一半。客户才是最懂自己业务的人，次核心的、边缘的功能需求，他们完全可以自己描述清楚、让AI去实现。"懂业务"不再是乙方的护城河。（而且核心需求、核心系统本身已经是数智化基础设施一部分了，很稳定。）

真正剩下来值钱的，是一种混合视角下的判断力。

企业数智化建设中的混合视角判断力

业务逻辑、目标、现状，这些当然重要，但任何一个数智化项目都不是孤立的——它嵌在整个企业生态里。向上看，要理解企业的顶层逻辑：内部资源禀赋、外部竞争格局、生态位，甚至监管和资本市场对这家企业的期待；向下看，要有真实的技术视角：AI能做什么、不能做什么，基于企业现状能搭出什么样的技术架构。

这个架构判断，必须在动手做任何功能之前就想清楚。功能本身，AI可以帮你做；但功能之前的那层思考——做什么、为什么做、放在整个企业体系里这件事的优先级和边界在哪——这是AI给不了的，也是甲方自己很难独立完成的。

能把这三层视角（顶层战略、业务现状、技术可能性）真正交叉起来做判断的人（公司），才是未来真正稀缺的。

组织形态：大公司消失，还是变形？

报告里有一句话我觉得值得认真对待：

"A 100-person company can increasingly do the work of a 1,000-person one, because each employee will sit atop a pyramid of agents."

一个100人公司可以越来越多地做1000人公司的工作，因为每个员工都站在一个Agent金字塔的顶端。

如果这是真的，靠人数规模形成壁垒的大型软件产品公司，理论基础就动摇了。一个10人团队配合AI工具，也许能做出过去500人才能做的产品。"是不是应该保持OPC（小而精、不盲目扩张）"这个问题，正在变得越来越实际。

但我不认为大公司会消失——我认为它们会变形。AI能加速的主要是执行，而决策和判断的成本并没有因此降低，甚至相反：当执行成本趋零，决策错误的代价反而被放大了，因为错误的方向会被快速地、大规模地执行出来。

所以我的判断是，未来的软件公司不是变小，而是变得"头重脚轻"——顶层的产品判断、用户研究、战略设计的占比会增大，底层的编码实现层会大幅压缩。

以前技术公司研发中心（R&D Center）是普遍存在的，未来我估计研究中心（Research Center）会更加普遍。

用户会不会自己造软件？

这是一个我认为被（从业人员）严重低估的趋势。

当AI能把自然语言转化成可运行的软件，"会不会用AI工具"和"会不会编程"的界限就开始模糊了。一个有清晰需求、愿意折腾的用户，也许真的能自己做出过去需要找开发团队的东西——哪怕代码质量不那么高，够用就行。

对某类软件产品的冲击会非常直接：功能单一、定制化需求高、用户愿意折腾的垂直场景，"自建"替代"购买"的趋势会越来越明显。基础设施类、强监管类、需要大量数据支撑的产品当然还需要专业团队，但那些解决相对通用问题、门槛不高的工具类、管理类产品，未来1～3年的竞争压力会比大多数从业人员预期的更大。

数智化交付：重心向上游迁移

从整个数字化交付行业来看，我觉得正在发生一次价值链的重组，方向是向上游迁移。

过去的模式是：甲方出需求，乙方做实现，交付物是代码和系统。工期长、造价高、维护难——这是整个行业几十年的基本形态，也是大量公司的商业模式。

未来可能的样子是：甲方出问题，乙方帮定义方案、做规划、设计架构；执行层（写代码、跑测试、部署上线）由AI和少数工程师完成。交付物从代码行数变成能力模型、业务规划和系统设计。

极端地想象一下：未来数智化咨询的核心价值，也许是帮客户搞清楚"应该让AI做什么"——而不是帮他们"做这件事本身"。搞不好以后头部AI公司会推出项目级别的能力，只要规划足够清晰，整个项目的开发搭建都可以交给AI了。对很多以实施和交付为核心竞争力的公司来说，这是一个需要认真对待的转型信号，越早想清楚越好。

最后

Anthropic这篇报告的结尾，他们清醒地描述了一个困境：技术的飞轮已经转起来了，每一个参与其中的机构都有动力让它转得更快，没有人有足够的激励单边停下来。这不是坏人的问题，这是博弈结构的问题。

我读完之后的感受，是某种不安——因为这个困境的描述是准确的，而准确的困境描述，并不能解决困境本身。

对软件行业从业者来说，AI不是在某一天突然"来了"。它正在每一个sprint里悄悄改变你做事的方式，就像温水。而这篇报告至少告诉了我们，水温现在到哪里了。

原文链接：When AI builds itself — Anthropic Institute