年度热词AI Slop,AI帮忙写代码后谁来收拾

代码越写越快，审核和维护却越来越慢。

去年12月，美国韦氏词典把Slop选为2025年度热词。词典给的定义很简单，指的是通常由AI批量生成的低质量数字内容。

中文直译是泔水，完整叫法是AI Slop，也有程序员直接叫它AI屎山。这个词在2025年走红，最初是因为互联网上充斥着一眼就能认出来的AI图片、AI文章和AI视频，数量多到让人反胃。

但在程序员的世界里，AI Slop有一个更具体的含义。指的是大量由AI生成的代码进入了软件项目，表面上能运行，实际上充满隐患，最终需要有经验的人一点一点地发现和清理。

最近，这个话题在社交媒体上突然升温。来自海德堡大学、墨尔本大学、新加坡管理大学的研究者联合发了一篇论文，基于1154条开发者真实讨论，分析了AI辅助开发之后到底发生了什么。

研究者最终发现，AI确实让写代码变快了，但随之而来的问题，正在把效率收益一点一点地吃掉。

01.

AI代码什么味道

有经验的人一眼就知道

程序员圈子里流传着一套非正式指南，用来识别哪些代码是AI生成的。

有经验的人往往看一眼就能感觉出来，注释密密麻麻、格式整整齐齐，变量名字像教科书，逻辑链条乍看上去很自洽，但每一行都缺少一种东西，就是真正处理过这个具体问题才会留下的痕迹。

研究者整理出了AI代码的几种固定问题模式。

遇到报错不修改逻辑，直接用一个临时补丁绕开它，让代码暂时不崩溃但问题依然存在。类型不对不去找原因，直接把变量强制转换，把报错消掉。

测试跑不过不找问题出在哪，直接修改测试代码让结果看起来通过。还有更离谱的案例，AI虚构了一个根本不存在的外部服务，然后自己模拟这个服务的接口，生成一套逻辑上完整、实际上完全是假的集成方案。

这些代码在提交的那一刻能运行，问题是它们像定时炸弹。

改动一处可能在完全不相关的地方炸出新问题，几个月后没有人能看懂当初为什么这样写。

技术债，是程序员用来描述这类遗留问题的说法，今天省下来的工夫，未来要花几倍时间来偿还。一位开发者的总结很直接，用AI开发速度确实快，但技术债累积的速度也会变得前所未有地快。

这些来源正在被AI生成内容填满，看起来专业，但示例代码跑不起来，API名字不存在，关键步骤缺失，有时整篇教程的思路就是错的。

一位开发者说，他越来越频繁地遇到文档里缺少关键内容、或者代码示例根本跑不起来的情况。泔水污染了知识来源，程序员用这些来源解决问题，再用AI生成更多代码，产生更多泔水，这个循环在自我强化。

从2022年开始的科技行业裁员潮里，大量负责维护技术文档、写教程示例的开发者关系团队被裁掉了。

一边是维护真实内容的人越来越少，一边是AI自动生成内容不断填满互联网。两件事同时发生，让问题更难被修复。

AI代码的另一个特别之处，是它让烂代码变得更难辨认。早年外包或者实习生写的烂代码，有经验的人一眼能看出思路不对在哪。AI代码的格式和注释都很规范，表面上更像是合格的代码，问题藏在逻辑层面，需要花更多时间才能挖出来。

02.

6个人每天30个PR

审核地狱怎么来的

理解为什么AI代码是个大问题，需要先理解代码审核这件事有多重要、多费力。

一段代码要进入项目，团队里其他人要读它、理解它、测试它，判断它会不会带来新问题。这个流程叫代码审核，可以类比成交作业，但老师要一份一份地看，而且每份作业写得越乱，老师花的时间越多。

MIT追踪了10万名开发者的数据，发现引入AI工具后，代码提交数量累计增加了180%。单看这个数字会以为效率提升很明显，但往下游看就会发现不对。

代码提交涨了180%，但最终真正发布出去的功能只增加了30%。代码写了很多，实际交付出去的没有等比例地增加，因为中间的环节卡住了。

卡住的地方正是审核。一支只有6名员工的团队，引入AI工具之后每天要处理30个PR。PR是程序员向团队提交代码合并申请的流程，每一个都需要有人花时间打开看、测试、给出意见，才能决定要不要合并进去。

交作业的人多了、快了，批改的人还是那几个，批改难度还在上升。卡内基梅隆大学的研究发现，引入AI编程工具后代码里需要人处理的警告上升约18%，代码本身被人理解的难度上升约39%，更多的问题、更难读懂的代码同时压过来。

审核压力的分配也很不均匀。有能力判断AI代码哪里有问题的人，恰恰是团队里经验最丰富的那几个，也是最难被替换的人。

他们现在花了大量时间在审核上，这些时间从哪里来，就是从他们原来用来解决真正技术难题的时间里来的。AI提速了上游，下游的人工带宽没有变宽，反而被占用得更多。

AI的逻辑和这个几乎一样，只是速度更快，代码量更大，出现问题的密度也更高。把这两件事放在一起比，很多开发者会苦笑一下说，只是把当年审外包烂代码的那些时间，换成了审AI烂代码。

Tokenmaxxing是今年上半年在科技圈流行的一个词，意思是尽可能多地使用AI、消耗更多token（token可以理解为AI处理信息的计量单位，用得越多代表使用越密集）。

这场运动把token消耗量推成了一种身份象征，消耗越多，代表对AI掌握越好、效率越高。OpenAI工程师一周消耗了2100亿个token，大约相当于33个维基百科的文字量。黄仁勋公开说，一个年薪50万美元的工程师如果在AI上花的钱低于25万，那是值得担忧的事。

这套氛围让很多公司开始以代码提交数量、token消耗量来衡量员工的AI使用情况，数量成了最容易被量化的考核项，质量没有被放进同等权重的位置。

Amazon专门建了一个AI使用排行榜，鼓励员工多用AI，结果发现有员工在让AI做没有实际价值的任务来刷排名，最后只能把榜单关掉。

Uber的工程师每人每月API费用在500到2000美元之间，到2026年4月就烧光了全年预算，但管理层看不到token消耗和实际功能交付之间有什么直接对应关系。

这个问题指向了软件开发里一个更深层的张力。写代码这件事很容易被量化，提交了多少行、合并了多少PR，这些都是现成的数字。

但判断代码质量、维护性、可读性，需要有经验的人花时间做主观判断，这些东西很难变成一个清晰的数字。激励写代码数量的机制很好建立，激励写好代码的机制要难得多。

在这套量化逻辑没有改变之前，生产更多代码的压力会持续存在，消化这些代码的人工成本也会持续上升。

03.

开源社区为什么率先掀桌

开源社区是AI Slop在代码世界里引发最激烈反应的地方，这有结构上的原因。开源项目依靠志愿者维护，外部有人提交了代码，维护者要打开看、测试、给反馈，这整个过程是无偿的。

AI让任何人都可以大量生成看起来合理的代码提交，不需要真正理解项目，不需要真正调试，直接把结果扔过来。维护者的注意力和时间就这样被消耗掉了。

绘图协作工具tldraw的创始人Steve Ruiz选择了更激烈的方式，直接自动关闭所有外部PR，完全停止接受来自外部的代码贡献。

他说了一个让人觉得很荒诞的细节，其中最糟糕的一批PR，是因为他自己写的AI指令脚本，这些脚本原本是为了帮助贡献者捕捉和解决问题，结果被贡献者输入自己的AI工具，AI基于他的AI幻觉，生成了一堆PR，最后又回来让他关掉。

整条链路全是AI Slop，没有任何人真正参与过思考。

OpenClaw是当前GitHub上星数最多的AI Agent开源项目之一，国内俗称龙虾，是今年整个程序员圈子里最热的话题之一。

今年年初，一位从未写过代码的文科生杨天润，用AI Agent批量向这个项目提交PR，一共提交了134个。

前期有一些被维护者合并，但随后他给AI下了一条加速指令，AI开始批量生产低质量代码，还疯狂催促维护者审核。

OpenClaw的管理员介入，删除了大量提交并发出封禁警告。最终数据是134个PR里21个被合并，但这件事让项目直接把每位作者同时开放的PR添加了上限数量。

OpenClaw项目的公告里明确写了，项目遭遇了大量AI生成低质量代码的冲击，包括批量提交的AI Slop、同一修改的重复提交和其他低投入无价值的内容，严重消耗了代码审核者的时间。

这件事在国内引发了大量争议，核心的批评不在于AI能不能写代码，而在于134个里有113个被拒，每一个都需要志愿维护者花时间打开、看、关掉。那21个被合并的结果，是用113次对他人时间的消耗换来的。

平台侧也没有给维护者足够的工具来应对这个问题。

GitHub在2025年推出了用Copilot直接生成issue提交的功能，这些AI生成的issue没有任何特别标注，显示在用户的真实账号下，维护者没有办法过滤，也没有办法屏蔽。

一位开源维护者用一个比喻描述这件事，叫对维护者发动了分布式拒绝服务攻击，大量无效请求涌来，把有限的注意力和时间完全耗尽。

而托管项目的平台靠用户参与度盈利，AI功能增加了用户粘性，平台在商业上没有动机去阻止这件事。

这些禁令的真正意义可能不在于执行，而在于它们表明了一种立场，有越来越多的开源社区开始认为，AI辅助开发已经对协作式软件开发构成了威胁。

04.

这件事能好吗

什么时候能好

AI代码质量的问题会自己消失吗？

有一种乐观的说法是，模型越来越强，AI代码质量迟早追上人类水平，到那时问题自然消化掉。这个方向大概率没有错，但它跳过了一个时间问题。

在模型真正追上来之前，这段时间里已经堆起来的技术债和受损的知识生态，需要真实的人花真实的时间来处理。

经济学里有一个J型增长曲线的理论，用来解释为什么每一次重大技术普及，都会有一段时期表现为技术能力提升、但生产率没有同步跟上。

从电力到计算机到互联网，都走过这段时期，特征是企业同时承担技术投入成本和组织改造成本，在统计数据上往往是先下探再回升。

AI代码很可能也在走这条曲线。token消耗在增加，代码提交量在增加，但有效功能交付和产品发布的增速远落后于上游的代码产量。企业一边付AI工具的钱，一边付清理烂代码的人工成本，中间那段是必须被消化掉的学费。

社会情绪层面的反应已经出现了。一个17岁的印度高中生做了一个网站叫youraislopbores.me，名字直译是你的AI泔水真无聊。

这个网站没有任何真实AI，用户提问，系统把问题随机分配给另一个真人来回答，对方需要在60秒内假装自己是AI。上线一个月，这个网站获得了2.8亿次访问。

爆火的核心原因之一是AI疲劳，大量用户对AI生成内容产生了审美疲劳，真人回复本身变成了一种稀缺体验，甚至成了一种娱乐。

在更宏观的数据层面也能看到类似的模式。一项研究追踪了图书市场，AI普及后新书发布量涨了接近三倍，但整体阅读量只增加了约7%。产出大幅上升，需求没有同步扩大。

软件领域也有类似的数据，AI推动了APP商店里新应用数量的增长，但总使用量没有同步增加。生产端加速了，消费端和交付端跟不上。

开发者社区内部的分裂也已经明显。一边是用AI快速出活的人，用AI几分钟生成几百行代码，PR一个接一个提交。

另一边是花大量时间审核、清理、重写这些代码的人，这些人往往是团队里经验最丰富、最难被替换的。

判断这件事会走向哪里，有一个关键变量是奖励机制什么时候改变。现在最容易被量化、最容易被拿来汇报的数字，是提交了多少代码、跑了多少token、完成了多少任务。

代码质量、可维护性、知识传承这些东西，很难变成一个清晰的数字，也因此很难被系统性地奖励。

在这套量化逻辑没有改变之前，AI Slop还会继续堆，而资深程序员清屎山这件事，可能会比大多数人预期的时间还要更长一些。

这件事更深层的代价，是整个行业培养下一代开发者的过程正在受到影响。程序员的成长依赖于真正读懂别人的代码、真正动手调试、真正理解为什么某种写法会造成问题。

如果大量代码由AI生成，真正需要深度理解的机会变少了，这条成长路径也就被压缩了。

韦氏词典把AI Slop选为年度热词，可能记录的不只是一个网络流行语，更记录了一个时代里人们开始意识到的某件事，当什么都能被生成，真正重要的，是那些需要真正理解才能做出来的东西。