90%的程序员都在用AI写代码,但没一个人知道它到底写了什么

我有个朋友，去年跳槽到一家AI创业公司，月薪涨了40%。

他说公司全面推行Cursor写代码，每个开发配了Claude的API额度，老板的原话是："能AI生成的就别自己手写，浪费时间。"

上周约他吃饭，他瘦了一圈。我说你发财了吧，他说发个屁，现在每天的工作就是review AI生成的代码，2000行起，看到眼睛疼。

"你知道最崩溃的是什么吗？"

"AI写的代码，第一眼看上去特别像那么回事。命名规范、缩进整齐、甚至还有注释…但跑起来就各种崩。"

他说上周review一段AI生成的后端接口代码，整整380行，逻辑清晰、结构工整，他甚至在心里夸了一句"写得不错"。结果上测试环境一跑，用户登录后的token校验直接绕过去了。

AI在代码里写了整整12行注释解释为什么要这么处理，说得头头是道。但逻辑是反的。

他把那段代码截图发到技术群里，有人说了一句话："这种'看起来都对但就是不对'的AI代码，比手写屎山还可怕。手写屎山至少你知道它为什么屎。"

2026年1月，Cursor搞了个大新闻。他们说自己用AI智能体，自动生成了一个浏览器。

300万行代码。

听起来像是AI编程的里程碑对吧？结果被开发者社区扒出来，这300万行代码从诞生那一刻起，就从来没编译过。

不是偶尔编译失败，是从提交记录往回翻100个commit，找不到哪怕一个能干净编译的版本。

有人试了试独立构建，报了数十个编译器错误。最近的PR全是在CI挂掉的情况下强行合并的。

开发者社区直接炸了。有人说这不是"浏览器实验"，这是"AI泔水"。整整300万行，没有一行可信。

说白了，这件事暴露了一个真相：AI能"写"代码，但它根本不知道自己在写什么。它只是把训练数据里见过的东西拼凑出来，看起来像那么回事，实际上经不起任何验证。

就像你让一个背了整本《刑法》但没上过一天法庭的人去当律师，他能把法条倒背如流，但在真正的庭审现场，他连该什么时候站起来都不知道…

有组数据值得看看。

Stack Overflow 2025年开发者调查，84%的开发者已经在用AI工具写代码。但信任AI准确性的比例，从2023年的42%降到了2025年的33%。

66%的开发者说，AI生成"几乎正确但不完全正确"的代码是他们最大的困扰。

翻译一下：AI给你的代码，不是全错，是刚好错到能通过第一眼review，然后在线上悄悄炸掉。

CodeRabbit分析了470个PR，AI生成的代码平均每个PR出10.83个问题，人工写的只有6.45个。多了将近一倍。

而且这不是"小问题"。多出来的主要是逻辑错误、安全问题、甚至密码处理不当这种级别的漏洞。

Google Research更直接，他们测了12款主流AI编程工具的代码质量——语法通过率92%，看起来很不错。逻辑正确率呢？78%。到了并发、事务、异常处理这些复杂场景，正确率直接掉到54%。

一半以上的复杂逻辑是错的。

你想想这个场景：你用AI一天写了5000行代码，2400行逻辑有问题。你review的时候能全部看出来吗？看不出来。然后这些代码就合进主分支了。

这叫什么？这叫"屎山制造机"。

纽约时报今年4月报了一个更吓人的案例。

一家金融服务公司接入Cursor之后，月代码产量从2.5万行飙到了25万行。翻了10倍。

听起来效率炸裂？再往下看：积压未审核的代码超过100万行。安全漏洞数量同步暴涨，但安全工程师的编制一个没加。

100万行代码堆在那里没人审。里面有多少是AI生成的？有多少是"几乎正确"但实际有问题的？没人知道。

说白了这个局面比手写屎山时代更糟糕。

以前屎山是人写的，至少写的人知道自己在糊弄什么。现在屎山是AI写的，没人知道它在糊弄什么。一个团队review代码的速度是有限的，但AI产出的速度是无限的。这个剪刀差只会越来越大。

一家安全公司Apiiro做了个对比研究，结论更扎心：使用AI工具的开发者，产出的安全漏洞数量是不用AI的开发者的10倍。

10倍。

你不觉得荒诞吗…我们引入AI是为了提效，结果效率确实提了，产出的漏洞也提了。速度越快，挖的坑越大。

我身边的程序员圈子，最近有个新共识。

以前面试问"你写过多少行代码"，现在面试问"你能review多少行AI写的代码"。

一个做架构师的朋友跟我说，他现在的日常是这样的：早上打开电脑，AI已经生成了昨晚需求对应的代码。他开始review，第一遍删掉明显有问题的，第二遍补上AI遗漏的异常处理，第三遍把"过度工程"的部分砍掉——AI特别喜欢为根本不会发生的极端边缘情况写代码。

"你知道吗，"他说，"AI生成的代码里，有11.4%是冗余代码，人工代码只有4.2%。这还不是最要命的。AI特别喜欢嵌套if-else，套个五六层，中间再塞几个TODO。等你改完这些，发现时间全花在debug上了。"

METR做过一个随机对照实验：让16个资深开源开发者在自己长期维护的项目里完成246个任务，一部分用AI，一部分不用。结果用AI的那组，完成任务的时间平均多了19%。

注意，不是快了，是慢了19%。

但最有意思的是：做完实验问这些开发者，你们觉得AI让你更快了还是更慢了？他们普遍回答"肯定更快了，快了20%左右"。

自己慢了19%，却感觉自己快了20%。

这种"幻觉"连开发者自己都骗过了…

说到底，AI屎山不是AI的问题。AI本来就不是工程师，它是个概率模型。它不懂架构，不懂取舍，不懂什么时候该重构，什么时候该加注释。它只会"拼凑"。

那些发生率80-90%的AI代码反模式已经说明了一切：无处不在的无意义注释、照本宣科的教科书模式、永远逃避重构、反复犯同样的错误。

把这样的东西放进代码库里，不是技术问题，是流程问题。

当你允许一个人一天产出10万行代码，却没有相应补齐review和测试的能力，那你不是在搞研发，你是在搞"代码大生产运动"。只追求产出，不对质量负责，最后产出的就是一堆谁也不敢动的屎山。

只不过这次，屎山不是人写的，是AI写的。

人写的屎山，至少有一个人知道它为什么屎。AI写的屎山，全团队一起猜…

AI会取代程序员吗？不会。AI会取代只会写代码的程序员。

会review AI代码的程序员，会越来越贵。因为他们干的已经不是"写代码"，而是"质量控制"。而控制质量这件事，在AI时代，比生产代码难十倍。