AI 写完八成代码,所有人卡在“谁来验收”—

AI 写完八成代码,所有人卡在“谁来验收”——而这恰好是下一个收费站

上周我盯着屏幕上一段 Claude 刚写完的代码，心里有点发毛。

它能跑，测试也过了，逻辑挑不出毛病。可我盯了快十分钟，迟迟没点下那个合并按钮。不是它写错了，恰恰是因为它写对了，而我说不清它为什么对。那一刻我忽然明白，我的活已经悄悄换了。我不再是写代码的那个人，我成了得替它签字的那个人。

这种隐隐的不安，最近被 Anthropic 一篇文章捅破了。

那篇文章叫《When AI builds itself》，翻成中文是「当 AI 开始自己造自己」，标题挺唬人。全球科技媒体转疯了，国内讲 AI 的号也全在聊。里面晒了一堆第一次公开的内部数据：现在合进 Anthropic 代码库的代码，超过八成是 Claude 写的；今年他们工程师日均合入的代码量，是两年前的八倍。

数据一出来，网上立刻吵成两派。

一派是兴奋的：你看，AI 都能自己写自己了，奇点要来了，程序员要失业了。另一派是冷笑的：Anthropic 五月底刚融了六百多亿美元，六月一号又偷偷递交了上市申请，这篇文章就卡在同一周发出来，这哪是技术汇报，分明是上市路演。AI 批评家 Gary Marcus 说得更狠，管它叫「狸猫换太子」，用「AI 要失控了」这种吓人的大词，去包装一件其实挺普通的事，无非是代码写得快了点，而且全程还攥在人手里。

两派吵得不可开交。可我越看越觉得，他们吵的压根不是重点。

真正的重点，藏在 Anthropic 自己都没敢大声说的一句话里。

他们说，工程师写得太快，人类这边的代码审核反倒成了瓶颈，审不过来了。怎么办呢，他们只好又上了一套自动审查，让 Claude 去审 Claude 写的代码。结果发现，要是过去每一次改动都走这道关，大约有三分之一引发线上事故的 bug，本可以被提前逮住。

你留意一下这里发生了什么。

机器一旦能没成本地「生产」，整个系统的瓶颈，就会从「做不做得出来」，整个挪到「确认不确认得了」。会写代码的人不值钱了，值钱的是那个能一眼看出哪段代码看着没事、其实埋了雷的人。一百个 AI 生成的方案摆在你面前，难的不是再生成第一百零一个，而是判断哪三个是真能用的。

Reddit 上一群天天拿 Claude 干活的工程师，把这件事讲得比任何分析都实在。有人说，八倍的代码行数，常常就是八倍的垃圾，一个四百行的测试文件，他能删到四十行，覆盖率一点不掉。还有人专门留出「还技术债」的日子，就为了清理 AI 顺手写下的、没人维护得动的废码。更扎心的是有人翻出一组数字：Anthropic 自家那个 claude-code 仓库，八成七的问题单是关掉的，其中一大批，是机器人见你几天没吭声，自动判你「无活动」给关了。问题没解决，可账面上干干净净。

连 Anthropic 自己都松了口。八倍是按代码行数算的，他们承认这「几乎肯定高估了真实的生产力提升」。今年三月他们在内部问了一百三十个研究员，大家自己估出来的提升中位数，是四倍，不是八倍。

所以「写」这件事，确实被结结实实地打下来了。可也正是这一下，把那个真问题顶到了所有人面前：东西越造越多、越造越快，到底谁来确认它们是对的？

到这儿，最聪明的那拨人，比如 Hacker News 上那条几百赞的讨论，问出了一个要命的问题：

你让 Claude 去审 Claude，那你又拿什么，去验证这一次审查本身是对的？

这一问，把整件事的底给掀了。

你本以为抓到了救命稻草：人审不过来，那就让 AI 来审。可 AI 审完，谁来审 AI 的审查？再叫一个 AI？那审查者的审查者，又归谁管？这条链子没有尽头。它不是个工程问题，多堆几台机器、多叠几个模型，解决不了。它是更根上的一件事。

要让机器替你验证一件事，前提是这件事得有一把「跟机器无关的、独立的尺子」。代码跑不跑得起来，有单元测试当裁判，这裁判是死的、客观的，机器自己说了不算。可一旦问题变成「这个架构选得好不好」「这个结论可信不可信」「这东西到底该不该上线」，世界上压根没有一台机器，能给你一个标准答案。

少了这把独立的尺子，AI 评 AI，最后只会滑向一个特别危险的去处：自信地错。

快刀青衣打过一个比方我觉得特别准。那就像同一个老师教出来的两个学生，互相批卷子，他们很可能对同一类错误，集体失明。两个模型喂的是同一批数据，带着同一套盲区，你让它们互相检查，它们会异口同声跟你说「没问题」，然后手拉手一起栽进同一个坑。

这就是为什么我敢说，验证这件事，没办法递归地自动化。生成可以无限便宜，验证不行。判断对错的最后一公里，绕不开一个站在机器之外、肯为结果负责的人。

把这层想通，很多焦虑其实可以换个方向搁。

往后这几年真正会涨价的，不是「会用 AI」这门手艺。那玩意儿很快会像「会用搜索引擎」一样，变成空气，人人都有，也就人人都不值钱。会涨价的是反过来那一头：你能不能判断，能不能验收，能不能在一堆漂漂亮亮的自动产物里，指着其中一个说「就它，我担保」。越是机器没法自证、只能靠人拍板的环节，往后越金贵。

我自己这阵子在做的事，方向其实就是这个。不是再攒一个更会聊天的 AI，而是想办法让机器干出来的活变得可复核、可确认，能被一个普通人当场验明真假。说白了，是给「验证」这件事，修一条更便宜的路。我赌的就是，往后稀缺的不是聪明，是可信。

所以，与其天天问「AI 会不会取代我」，不如换个问法，把你手上的活从头到尾过一遍：哪一段，是机器再快也审不了、到最后只能你来签字的？

找到那一段。那里，就是接下来这几年，你身上唯一会越来越贵的地方。