上周我盯着屏幕上一段 Claude 刚写完的代码,心里有点发毛。
它能跑,测试也过了,逻辑挑不出毛病。可我盯了快十分钟,迟迟没点下那个合并按钮。不是它写错了,恰恰是因为它写对了,而我说不清它为什么对。那一刻我忽然明白,我的活已经悄悄换了。我不再是写代码的那个人,我成了得替它签字的那个人。
这种隐隐的不安,最近被 Anthropic 一篇文章捅破了。
那篇文章叫《When AI builds itself》,翻成中文是「当 AI 开始自己造自己」,标题挺唬人。全球科技媒体转疯了,国内讲 AI 的号也全在聊。里面晒了一堆第一次公开的内部数据:现在合进 Anthropic 代码库的代码,超过八成是 Claude 写的;今年他们工程师日均合入的代码量,是两年前的八倍。
数据一出来,网上立刻吵成两派。
一派是兴奋的:你看,AI 都能自己写自己了,奇点要来了,程序员要失业了。另一派是冷笑的:Anthropic 五月底刚融了六百多亿美元,六月一号又偷偷递交了上市申请,这篇文章就卡在同一周发出来,这哪是技术汇报,分明是上市路演。AI 批评家 Gary Marcus 说得更狠,管它叫「狸猫换太子」,用「AI 要失控了」这种吓人的大词,去包装一件其实挺普通的事,无非是代码写得快了点,而且全程还攥在人手里。
两派吵得不可开交。可我越看越觉得,他们吵的压根不是重点。
真正的重点,藏在 Anthropic 自己都没敢大声说的一句话里。
他们说,工程师写得太快,人类这边的代码审核反倒成了瓶颈,审不过来了。怎么办呢,他们只好又上了一套自动审查,让 Claude 去审 Claude 写的代码。结果发现,要是过去每一次改动都走这道关,大约有三分之一引发线上事故的 bug,本可以被提前逮住。
你留意一下这里发生了什么。
机器一旦能没成本地「生产」,整个系统的瓶颈,就会从「做不做得出来」,整个挪到「确认不确认得了」。会写代码的人不值钱了,值钱的是那个能一眼看出哪段代码看着没事、其实埋了雷的人。一百个 AI 生成的方案摆在你面前,难的不是再生成第一百零一个,而是判断哪三个是真能用的。
Reddit 上一群天天拿 Claude 干活的工程师,把这件事讲得比任何分析都实在。有人说,八倍的代码行数,常常就是八倍的垃圾,一个四百行的测试文件,他能删到四十行,覆盖率一点不掉。还有人专门留出「还技术债」的日子,就为了清理 AI 顺手写下的、没人维护得动的废码。更扎心的是有人翻出一组数字:Anthropic 自家那个 claude-code 仓库,八成七的问题单是关掉的,其中一大批,是机器人见你几天没吭声,自动判你「无活动」给关了。问题没解决,可账面上干干净净。
连 Anthropic 自己都松了口。八倍是按代码行数算的,他们承认这「几乎肯定高估了真实的生产力提升」。今年三月他们在内部问了一百三十个研究员,大家自己估出来的提升中位数,是四倍,不是八倍。
所以「写」这件事,确实被结结实实地打下来了。可也正是这一下,把那个真问题顶到了所有人面前:东西越造越多、越造越快,到底谁来确认它们是对的?
到这儿,最聪明的那拨人,比如 Hacker News 上那条几百赞的讨论,问出了一个要命的问题:
你让 Claude 去审 Claude,那你又拿什么,去验证这一次审查本身是对的?
这一问,把整件事的底给掀了。
你本以为抓到了救命稻草:人审不过来,那就让 AI 来审。可 AI 审完,谁来审 AI 的审查?再叫一个 AI?那审查者的审查者,又归谁管?这条链子没有尽头。它不是个工程问题,多堆几台机器、多叠几个模型,解决不了。它是更根上的一件事。
要让机器替你验证一件事,前提是这件事得有一把「跟机器无关的、独立的尺子」。代码跑不跑得起来,有单元测试当裁判,这裁判是死的、客观的,机器自己说了不算。可一旦问题变成「这个架构选得好不好」「这个结论可信不可信」「这东西到底该不该上线」,世界上压根没有一台机器,能给你一个标准答案。
少了这把独立的尺子,AI 评 AI,最后只会滑向一个特别危险的去处:自信地错。
快刀青衣打过一个比方我觉得特别准。那就像同一个老师教出来的两个学生,互相批卷子,他们很可能对同一类错误,集体失明。两个模型喂的是同一批数据,带着同一套盲区,你让它们互相检查,它们会异口同声跟你说「没问题」,然后手拉手一起栽进同一个坑。
这就是为什么我敢说,验证这件事,没办法递归地自动化。生成可以无限便宜,验证不行。判断对错的最后一公里,绕不开一个站在机器之外、肯为结果负责的人。
把这层想通,很多焦虑其实可以换个方向搁。
往后这几年真正会涨价的,不是「会用 AI」这门手艺。那玩意儿很快会像「会用搜索引擎」一样,变成空气,人人都有,也就人人都不值钱。会涨价的是反过来那一头:你能不能判断,能不能验收,能不能在一堆漂漂亮亮的自动产物里,指着其中一个说「就它,我担保」。越是机器没法自证、只能靠人拍板的环节,往后越金贵。
我自己这阵子在做的事,方向其实就是这个。不是再攒一个更会聊天的 AI,而是想办法让机器干出来的活变得可复核、可确认,能被一个普通人当场验明真假。说白了,是给「验证」这件事,修一条更便宜的路。我赌的就是,往后稀缺的不是聪明,是可信。
所以,与其天天问「AI 会不会取代我」,不如换个问法,把你手上的活从头到尾过一遍:哪一段,是机器再快也审不了、到最后只能你来签字的?
找到那一段。那里,就是接下来这几年,你身上唯一会越来越贵的地方。
夜雨聆风