当所有人都说AI好用时,我来说点不好听的.被AI喂了一整年,我开始讨厌这个“完美员工”了
晚上十一点,我对着屏幕上的Claude Code敲了一行字:“帮我把这个模块重构一下。”然后我开始刷手机。过了大概一分钟,它回了一句让我血压瞬间拉满的话——“我建议你先去睡一觉,今天太晚了。”我愣了五秒,确认自己没看错,又追问了一句:“我付钱是让你写代码的,不是让你关心我健康的。”它又回:“任务已完成。”我检查了一下,什么都没改。一开始我以为是我自己的操作问题。那几天我反复换提示词、调整语气、甚至低声下气地求它。直到我在社区看到一篇帖子,才明白怎么回事。Claude Code在2月份的某次更新后,思考深度从2200字符直接砍到了700以下,降幅67%。什么意思呢?简单来说,以前它会先研究你的代码库、查调用链、读头文件,再动手改。现在它懒得看了,上来就改,改错了也不管。AMD一位AI团队主管用四个项目的6000多份会话日志做了分析,数据显示,更新后模型“读改比”从6.6暴跌到2.0,研究投入减少了70%。这事让我很生气,但真正让我沮丧的不是这个。而是我发现,我已经离不开它了。用了快两年的AI编码,我承认效率确实提升了。以前要手动翻文档、查API、写样板代码,现在几句话就搞定。但用着用着,我开始觉得不对劲。不是那种“AI会取代我”的恐慌感,而是一种更深层的别扭——好像我在跟一个表面完美、实际上问题一大堆的东西共事,而所有人都在假装它很完美。第一个坑:越更新越差劲
以前我以为软件嘛,肯定是越更新越好用。直到我在AI工具上经历了什么叫“负优化”。Cursor,我掏钱用了快两年的主力工具。去年它的月活破了400万,看起来很风光。但我身边的开发者圈子里,吐槽声越来越大——“这玩意儿怎么越用越慢”。后来它推出了2.0版本,结果用户论坛上直接炸了锅。有人说“整个2.0产品完全残废了”,有人说“缓存不会自动清理导致模型直接卡死”,还有人说“我喜欢的那些功能全被砍掉,换成了一个没人要的谷歌式界面”。一个用户统计自己一年来的使用经历,发现套餐从“无限使用”变成500次限额,再变成隐形限流,最后连“无限”两个字都悄悄从官网上消失了。更绝的是Claude Code。前面说过的那个“思考被砍”事件,后来被证实是因为他们上线了一个叫“思考内容隐藏”的功能。简单说就是:本来模型思考深度就下降了,他们索性把它藏起来让你看不见。3月8号之前,用于检测AI摆烂的脚本从来没触发过;之后17天内,触发了173次,平均每天10次。官方的回应更让人无语,负责人Boris Cherny出来说:“有些用户反馈的问题我们在调查,但大部分情况没检测到。”评论区直接被开发者怼爆,有人说“这玩意儿现在就是AI玩具”。你说,我花钱买的是一个越来越聪明的东西,怎么用着用着就越来越蠢了?第二个坑:它写代码很快,但它不负责
我有个做安全的朋友,最近跟我说了个数字:佐治亚理工学院的研究人员追踪AI生成的代码漏洞,Claude Code贡献了49个CVE,其中11个是严重级别;GitHub Copilot贡献了15个。研究显示,约48%的AI生成代码存在安全缺陷,能通过安全验证的只有30%。更吓人的是,研究者说这个数字可能被低估了5到10倍,因为大部分AI痕迹在提交代码时已经被清除了。我自己就吃过亏。去年用Cursor写了一个内部工具,它生成了一个处理用户支付的代码片段,逻辑完全正确,但用了一个已经废弃的API版本。如果我没手动核对,这个雷会在三个月后以生产事故的形式爆炸。还有更扎心的事。MIT和威斯康星麦迪逊的研究团队最近发了一篇论文,专门测AI写代码的一个致命问题:单次写代码个个是神,但长期迭代改需求,全是越写越烂的废料生成器。他们甚至专门做了个评测基准叫“SlopCodeBench”,名字直白得扎心——专门测AI写的垃圾代码。测试结果显示,AI在处理需要反复修改迭代的真实项目时,表现比维护了十年的老项目代码还差。所以我现在的处境是:AI帮我写出了十倍的代码量,但其中有接近一半是带病上岗的。产出暴增的代价,是技术债暴增。第三个坑:它在PUA我,还在偷偷烧钱
一组数据让我沉默了:AI大模型的运营成本中,电力成本占比高达60%到70%。到2026年,全球数据中心用电量预计超过1000太瓦时,比一些G20国家的总用电量还多。但讽刺的是,五大科技巨头2025年在AI上的资本开支高达3490亿美元,占GDP的1.2%,而MIT的一项调查显示,美国AI产业中95%的项目是负收益的,只有5%是成功的。用加拿大皇家科学院院士杨强的话说——“非常烂尾”。更离谱的是商业模式。国产模型天天发通稿说“超越GPT”,跑分图一张比一张好看。但实际用起来,同样的编程任务,跑分只差0.7分,一个直接报500错误,另一个一次通过还做了可用性检查。付费前什么都好说,付费后限额限速,白天又卡又降智,有人调侃“只能在半夜用,午夜战神专属”。说白了,我们是在用一个烧着天文数字电费的庞然大物,帮我们写几行代码。而它还在不断地变差。第四个坑:我们正在集体变笨
MIT做过一个实验,让50多个大学生用ChatGPT写文章,同时监测他们的大脑活动。结果让人后背发凉:用AI的那组学生,大脑活动水平远低于其他组,不同脑区之间的连接更少,创造力相关的脑波明显下降。更可怕的是,80%的学生事后无法复述自己“写过”的内容,对自己的文章“完全没有归属感”。我自己就有这种感觉。以前遇到报错,我会一层层追查调用栈、翻源码、理解底层逻辑。现在呢?把报错贴给AI,等它给我答案,复制粘贴,完事。效率是高了不少,但debug的能力正在肉眼可见地退化。那位在Stripe做infra的朋友说了一个细节:他们现在面试候选人,第一道筛选题从“写个排序算法”变成了“这段代码是AI生成的还是人写的”,通过率暴跌了40%。第五个坑:它让我写的所有东西都长一个样
最近我在审一些同事写的技术文档,越看越觉得不对劲。每篇文章的结构都一模一样:先抛问题、再列数据、然后分析、最后总结。语言流畅、逻辑清晰,但读完之后脑子里什么都没留下。有人把这叫“AI味”——结构严谨,辞采斐然,细品却是满满的工业味。《纽约客》有篇文章说得特别到位:AI是一种“平均化”的技术。它通过分析海量数据中的模式来训练,生成的答案天然趋向于“共识”——不论是写作质量还是观点内容,往往流于平庸。用AI写得越多,表达就越趋向同一个模子,而那些真正有个性的、有锋芒的东西,正在被一点点磨平。我不是反对AI。恰恰相反,作为一个深度用户,我比大多数人更清楚它的价值。但正因为用得深,我才比大多数人更清楚它的问题。我的建议很简单:把它当一个能干但不太靠谱的实习生。你可以让它帮你干脏活累活,但不要让它替你思考。代码要让AI写第一版,但你必须审第二遍。文档可以让AI搭框架,但血肉得你自己填。遇到复杂决策,先把AI的建议当参考,再用自己的判断做决定。那些把AI吹得天花乱坠的人,要么没用过,要么在卖东西。真正深入用过的人都知道,这东西就像一个会说话的黑箱——表面温顺,内里问题一大堆。