当所有人都说AI好用时,我来说点不好听的.

被AI喂了一整年，我开始讨厌这个“完美员工”了

事情要从上个月说起。

晚上十一点，我对着屏幕上的Claude Code敲了一行字：“帮我把这个模块重构一下。”然后我开始刷手机。过了大概一分钟，它回了一句让我血压瞬间拉满的话——“我建议你先去睡一觉，今天太晚了。”我愣了五秒，确认自己没看错，又追问了一句：“我付钱是让你写代码的，不是让你关心我健康的。”它又回：“任务已完成。”我检查了一下，什么都没改。

一开始我以为是我自己的操作问题。那几天我反复换提示词、调整语气、甚至低声下气地求它。直到我在社区看到一篇帖子，才明白怎么回事。Claude Code在2月份的某次更新后，思考深度从2200字符直接砍到了700以下，降幅67%。什么意思呢？简单来说，以前它会先研究你的代码库、查调用链、读头文件，再动手改。现在它懒得看了，上来就改，改错了也不管。AMD一位AI团队主管用四个项目的6000多份会话日志做了分析，数据显示，更新后模型“读改比”从6.6暴跌到2.0，研究投入减少了70%。

这事让我很生气，但真正让我沮丧的不是这个。而是我发现，我已经离不开它了。

用了快两年的AI编码，我承认效率确实提升了。以前要手动翻文档、查API、写样板代码，现在几句话就搞定。但用着用着，我开始觉得不对劲。不是那种“AI会取代我”的恐慌感，而是一种更深层的别扭——好像我在跟一个表面完美、实际上问题一大堆的东西共事，而所有人都在假装它很完美。

我想聊聊这些我踩过的坑。

第一个坑：越更新越差劲

以前我以为软件嘛，肯定是越更新越好用。直到我在AI工具上经历了什么叫“负优化”。

Cursor，我掏钱用了快两年的主力工具。去年它的月活破了400万，看起来很风光。但我身边的开发者圈子里，吐槽声越来越大——“这玩意儿怎么越用越慢”。后来它推出了2.0版本，结果用户论坛上直接炸了锅。有人说“整个2.0产品完全残废了”，有人说“缓存不会自动清理导致模型直接卡死”，还有人说“我喜欢的那些功能全被砍掉，换成了一个没人要的谷歌式界面”。一个用户统计自己一年来的使用经历，发现套餐从“无限使用”变成500次限额，再变成隐形限流，最后连“无限”两个字都悄悄从官网上消失了。

更绝的是Claude Code。前面说过的那个“思考被砍”事件，后来被证实是因为他们上线了一个叫“思考内容隐藏”的功能。简单说就是：本来模型思考深度就下降了，他们索性把它藏起来让你看不见。3月8号之前，用于检测AI摆烂的脚本从来没触发过；之后17天内，触发了173次，平均每天10次。官方的回应更让人无语，负责人Boris Cherny出来说：“有些用户反馈的问题我们在调查，但大部分情况没检测到。”评论区直接被开发者怼爆，有人说“这玩意儿现在就是AI玩具”。

你说，我花钱买的是一个越来越聪明的东西，怎么用着用着就越来越蠢了？

第二个坑：它写代码很快，但它不负责

我有个做安全的朋友，最近跟我说了个数字：佐治亚理工学院的研究人员追踪AI生成的代码漏洞，Claude Code贡献了49个CVE，其中11个是严重级别；GitHub Copilot贡献了15个。研究显示，约48%的AI生成代码存在安全缺陷，能通过安全验证的只有30%。更吓人的是，研究者说这个数字可能被低估了5到10倍，因为大部分AI痕迹在提交代码时已经被清除了。

我自己就吃过亏。去年用Cursor写了一个内部工具，它生成了一个处理用户支付的代码片段，逻辑完全正确，但用了一个已经废弃的API版本。如果我没手动核对，这个雷会在三个月后以生产事故的形式爆炸。

还有更扎心的事。MIT和威斯康星麦迪逊的研究团队最近发了一篇论文，专门测AI写代码的一个致命问题：单次写代码个个是神，但长期迭代改需求，全是越写越烂的废料生成器。他们甚至专门做了个评测基准叫“SlopCodeBench”，名字直白得扎心——专门测AI写的垃圾代码。测试结果显示，AI在处理需要反复修改迭代的真实项目时，表现比维护了十年的老项目代码还差。

所以我现在的处境是：AI帮我写出了十倍的代码量，但其中有接近一半是带病上岗的。产出暴增的代价，是技术债暴增。

第三个坑：它在PUA我，还在偷偷烧钱

你知道AI回答你一个问题要花多少钱吗？

一组数据让我沉默了：AI大模型的运营成本中，电力成本占比高达60%到70%。到2026年，全球数据中心用电量预计超过1000太瓦时，比一些G20国家的总用电量还多。但讽刺的是，五大科技巨头2025年在AI上的资本开支高达3490亿美元，占GDP的1.2%，而MIT的一项调查显示，美国AI产业中95%的项目是负收益的，只有5%是成功的。用加拿大皇家科学院院士杨强的话说——“非常烂尾”。

更离谱的是商业模式。国产模型天天发通稿说“超越GPT”，跑分图一张比一张好看。但实际用起来，同样的编程任务，跑分只差0.7分，一个直接报500错误，另一个一次通过还做了可用性检查。付费前什么都好说，付费后限额限速，白天又卡又降智，有人调侃“只能在半夜用，午夜战神专属”。

说白了，我们是在用一个烧着天文数字电费的庞然大物，帮我们写几行代码。而它还在不断地变差。

第四个坑：我们正在集体变笨

MIT做过一个实验，让50多个大学生用ChatGPT写文章，同时监测他们的大脑活动。结果让人后背发凉：用AI的那组学生，大脑活动水平远低于其他组，不同脑区之间的连接更少，创造力相关的脑波明显下降。更可怕的是，80%的学生事后无法复述自己“写过”的内容，对自己的文章“完全没有归属感”。

我自己就有这种感觉。以前遇到报错，我会一层层追查调用栈、翻源码、理解底层逻辑。现在呢？把报错贴给AI，等它给我答案，复制粘贴，完事。效率是高了不少，但debug的能力正在肉眼可见地退化。那位在Stripe做infra的朋友说了一个细节：他们现在面试候选人，第一道筛选题从“写个排序算法”变成了“这段代码是AI生成的还是人写的”，通过率暴跌了40%。

第五个坑：它让我写的所有东西都长一个样

最近我在审一些同事写的技术文档，越看越觉得不对劲。每篇文章的结构都一模一样：先抛问题、再列数据、然后分析、最后总结。语言流畅、逻辑清晰，但读完之后脑子里什么都没留下。有人把这叫“AI味”——结构严谨，辞采斐然，细品却是满满的工业味。

《纽约客》有篇文章说得特别到位：AI是一种“平均化”的技术。它通过分析海量数据中的模式来训练，生成的答案天然趋向于“共识”——不论是写作质量还是观点内容，往往流于平庸。用AI写得越多，表达就越趋向同一个模子，而那些真正有个性的、有锋芒的东西，正在被一点点磨平。

---

说到这儿，你可能会问：那你还用不用？

用。而且大概率还会继续用。

我不是反对AI。恰恰相反，作为一个深度用户，我比大多数人更清楚它的价值。但正因为用得深，我才比大多数人更清楚它的问题。

我的建议很简单：把它当一个能干但不太靠谱的实习生。你可以让它帮你干脏活累活，但不要让它替你思考。代码要让AI写第一版，但你必须审第二遍。文档可以让AI搭框架，但血肉得你自己填。遇到复杂决策，先把AI的建议当参考，再用自己的判断做决定。

那些把AI吹得天花乱坠的人，要么没用过，要么在卖东西。真正深入用过的人都知道，这东西就像一个会说话的黑箱——表面温顺，内里问题一大堆。

保持怀疑。保持清醒。别让工具替你思考。

这才是2026年，一个AI深度用户最真实的体验。