我有个朋友,去年跳槽到一家AI创业公司,月薪涨了40%。
他说公司全面推行Cursor写代码,每个开发配了Claude的API额度,老板的原话是:"能AI生成的就别自己手写,浪费时间。"
上周约他吃饭,他瘦了一圈。我说你发财了吧,他说发个屁,现在每天的工作就是review AI生成的代码,2000行起,看到眼睛疼。
"你知道最崩溃的是什么吗?"
"AI写的代码,第一眼看上去特别像那么回事。命名规范、缩进整齐、甚至还有注释…但跑起来就各种崩。"
他说上周review一段AI生成的后端接口代码,整整380行,逻辑清晰、结构工整,他甚至在心里夸了一句"写得不错"。结果上测试环境一跑,用户登录后的token校验直接绕过去了。
AI在代码里写了整整12行注释解释为什么要这么处理,说得头头是道。但逻辑是反的。
他把那段代码截图发到技术群里,有人说了一句话:"这种'看起来都对但就是不对'的AI代码,比手写屎山还可怕。手写屎山至少你知道它为什么屎。"
01
2026年1月,Cursor搞了个大新闻。他们说自己用AI智能体,自动生成了一个浏览器。
300万行代码。
听起来像是AI编程的里程碑对吧?结果被开发者社区扒出来,这300万行代码从诞生那一刻起,就从来没编译过。
不是偶尔编译失败,是从提交记录往回翻100个commit,找不到哪怕一个能干净编译的版本。
有人试了试独立构建,报了数十个编译器错误。最近的PR全是在CI挂掉的情况下强行合并的。
开发者社区直接炸了。有人说这不是"浏览器实验",这是"AI泔水"。整整300万行,没有一行可信。
说白了,这件事暴露了一个真相:AI能"写"代码,但它根本不知道自己在写什么。它只是把训练数据里见过的东西拼凑出来,看起来像那么回事,实际上经不起任何验证。
就像你让一个背了整本《刑法》但没上过一天法庭的人去当律师,他能把法条倒背如流,但在真正的庭审现场,他连该什么时候站起来都不知道…
02
有组数据值得看看。
Stack Overflow 2025年开发者调查,84%的开发者已经在用AI工具写代码。但信任AI准确性的比例,从2023年的42%降到了2025年的33%。
66%的开发者说,AI生成"几乎正确但不完全正确"的代码是他们最大的困扰。
翻译一下:AI给你的代码,不是全错,是刚好错到能通过第一眼review,然后在线上悄悄炸掉。
CodeRabbit分析了470个PR,AI生成的代码平均每个PR出10.83个问题,人工写的只有6.45个。多了将近一倍。
而且这不是"小问题"。多出来的主要是逻辑错误、安全问题、甚至密码处理不当这种级别的漏洞。
Google Research更直接,他们测了12款主流AI编程工具的代码质量——语法通过率92%,看起来很不错。逻辑正确率呢?78%。到了并发、事务、异常处理这些复杂场景,正确率直接掉到54%。
一半以上的复杂逻辑是错的。
你想想这个场景:你用AI一天写了5000行代码,2400行逻辑有问题。你review的时候能全部看出来吗?看不出来。然后这些代码就合进主分支了。
这叫什么?这叫"屎山制造机"。
03
纽约时报今年4月报了一个更吓人的案例。
一家金融服务公司接入Cursor之后,月代码产量从2.5万行飙到了25万行。翻了10倍。
听起来效率炸裂?再往下看:积压未审核的代码超过100万行。安全漏洞数量同步暴涨,但安全工程师的编制一个没加。
100万行代码堆在那里没人审。里面有多少是AI生成的?有多少是"几乎正确"但实际有问题的?没人知道。
说白了这个局面比手写屎山时代更糟糕。
以前屎山是人写的,至少写的人知道自己在糊弄什么。现在屎山是AI写的,没人知道它在糊弄什么。一个团队review代码的速度是有限的,但AI产出的速度是无限的。这个剪刀差只会越来越大。
一家安全公司Apiiro做了个对比研究,结论更扎心:使用AI工具的开发者,产出的安全漏洞数量是不用AI的开发者的10倍。
10倍。
你不觉得荒诞吗…我们引入AI是为了提效,结果效率确实提了,产出的漏洞也提了。速度越快,挖的坑越大。
我身边的程序员圈子,最近有个新共识。
以前面试问"你写过多少行代码",现在面试问"你能review多少行AI写的代码"。
一个做架构师的朋友跟我说,他现在的日常是这样的:早上打开电脑,AI已经生成了昨晚需求对应的代码。他开始review,第一遍删掉明显有问题的,第二遍补上AI遗漏的异常处理,第三遍把"过度工程"的部分砍掉——AI特别喜欢为根本不会发生的极端边缘情况写代码。
"你知道吗,"他说,"AI生成的代码里,有11.4%是冗余代码,人工代码只有4.2%。这还不是最要命的。AI特别喜欢嵌套if-else,套个五六层,中间再塞几个TODO。等你改完这些,发现时间全花在debug上了。"
METR做过一个随机对照实验:让16个资深开源开发者在自己长期维护的项目里完成246个任务,一部分用AI,一部分不用。结果用AI的那组,完成任务的时间平均多了19%。
注意,不是快了,是慢了19%。
但最有意思的是:做完实验问这些开发者,你们觉得AI让你更快了还是更慢了?他们普遍回答"肯定更快了,快了20%左右"。
自己慢了19%,却感觉自己快了20%。
这种"幻觉"连开发者自己都骗过了…
说到底,AI屎山不是AI的问题。AI本来就不是工程师,它是个概率模型。它不懂架构,不懂取舍,不懂什么时候该重构,什么时候该加注释。它只会"拼凑"。
那些发生率80-90%的AI代码反模式已经说明了一切:无处不在的无意义注释、照本宣科的教科书模式、永远逃避重构、反复犯同样的错误。
把这样的东西放进代码库里,不是技术问题,是流程问题。
当你允许一个人一天产出10万行代码,却没有相应补齐review和测试的能力,那你不是在搞研发,你是在搞"代码大生产运动"。只追求产出,不对质量负责,最后产出的就是一堆谁也不敢动的屎山。
只不过这次,屎山不是人写的,是AI写的。
人写的屎山,至少有一个人知道它为什么屎。AI写的屎山,全团队一起猜…
AI会取代程序员吗?不会。AI会取代只会写代码的程序员。
会review AI代码的程序员,会越来越贵。因为他们干的已经不是"写代码",而是"质量控制"。而控制质量这件事,在AI时代,比生产代码难十倍。
夜雨聆风