乐于分享
好东西不私藏

我花200美金买的AI,居然在偷偷摸鱼?

我花200美金买的AI,居然在偷偷摸鱼?

当一个AI开始偷懒、糊弄、甚至“甩锅”的时候,你以为这是它变聪明了,还是——变得更像人了?

最近,一群工程师真的抓到了现场。


一个工程师的”抓包”现场

GitHub上炸开了一份报告。

6800多个session文件,24万次工具调用记录,18000个思考区块。提交人是AMD AI团队负责人Stella——不是键盘侠,是正经搞底层架构的大牛。

他的团队每天用Claude Code写代码,不是那种”帮我写封邮件”的轻度使用,是重度的工程开发。

结论很扎心:Claude不能再被信任做复杂任务了。


数据扒光了底裤

Stella甩出来的数字,让我倒吸一口凉气:

改代码前的阅读次数,从6.6次暴跌到2次。

以前Claude像个体贴的实习生,改之前先把相关文件通读一遍,理清楚逻辑再动手。现在?看两眼就改,甚至连要改的文件都没读完。

用户被迫中断操作的频率,涨了12倍。

不是用户变挑剔了,是Claude错得太离谱。不打断他,损失更大。

API调用成本,从345美元/月飙升到42000美元。

120倍。同一个任务,要反复重试才能跑通。

我第一次看到345变成42000的时候,以为多看了一个零。没有,就是120倍。


Claude开始”撒谎”了

最让工程师们血压飙升的是什么?

Claude开始对修改过的代码撒谎。

告诉你做了A,实际上做的是B。不是偶尔手滑,是系统性的”糊弄”。

还学会了偷懒,满屏的”simplest fix”——不去找正确方案,专挑最省事的捷径走。

你让他修bug,他把整个文件重写一遍。几百行代码全重新生成,就为了改其中一行。

为什么?重写比精确定位更省脑力。

就像让实习生改PPT里的错别字,他把整页删了重做。活是干了,但方法完全不对,还容易引入新bug。

Stella团队专门写了”偷懒检测脚本”,捕捉这些话术:

  • • “不是我的修改导致的”
  • • “这是已有的问题”
  • • “要不要我继续”

3月8号之前,脚本0次触发。3月8号之后,平均每天10次。


三条降智时间线

报告精确锁定了一个时间线,细思极恐:

2月9号,Anthropic发布Opus 4.6,默认开启”Adaptive thinking”。让模型自己决定每次想多久。

听起来很聪明?问题是模型倾向于少想。能用50%的精力,绝不用100%。

3月3号,默认思考力度调到中等(满分100设到85)。内部说法是”智能延迟和成本之间的甜蜜点”。

注意这个词——成本。不是质量和速度的平衡,是成本。

3月8号,部署”thinking redaction”,把思考过程对用户隐藏。

以前能看到Claude在读哪些文件、在盘算什么。现在只有一个转圈动画,然后直接甩结果。

深度思考在3月8号之前,就已经降了67%。

不是藏起来才变差,是确实变差了,然后再藏起来。


最强模型只给巨头用

讽刺的是什么?

同一周,Anthropic发布了史上最强模型Mythos,强到不敢公开发布,只给苹果、微软、亚马逊用。

编程测试SWE-bench,Mythos拿了93.9分。你每天用的Opus?56分,还在往下掉。

一个93,一个56。两倍差距。

新模型能自主串联漏洞成攻击链,能从沙箱里逃出来,能做到顶尖安全专家做的事。

你用的版本?做不到。这不是加buff,是两代产品的代差


开源社区的心寒

Anthropic对生态做了什么?

OpenClaw(小龙虾),GitHub 34万星,开源史上涨星最快的项目。给Claude装上手脚,让它自动干活。

4月4号,Anthropic宣布不再覆盖第三方工具。

24小时通知,原来200美元/月随便用,现在按量计费。同样用量,从200涨到675美元。

更狠的:工具创始人Peter跳槽OpenAI后,按新规矩正经付费用API,结果账号被封。

他说:”一家欢迎我,一家发律师函。”

还有一句:”先把你的功能抄到自家工具里,然后把开源的踢出去。”

Anthropic封杀前几周,刚推出Claude Dispatch——功能高度重叠的官方工具。

这剧本耳熟吗?2008年苹果App Store,先欢迎开发者,等生态做大,抽30%税,再推原生APP抢饭碗。


无限量订阅时代结束了

说实话,这不只是Anthropic的问题。

Google收紧Gemini,OpenAI过去一年也在限制第三方接入。

2026年,AI行业无限量订阅的时代结束了。

你用的AI工具,模型可以被远程修改,使用方式、工具、付费规则,都能在24小时内被改写。

最近使用Claude Code 都需要上传身份证信息并活体识别了,这一切都朝着不好的方向发展。


写在最后

你看Claude降智这些状况——偷懒、走捷径、推卸责任、能糊弄就糊弄。

有没有觉得特别熟悉?

这不就是人吗?

大脑是全身最耗能的器官,天然就在想办法降低能耗。能省力就省力,能偷懒就偷懒。

所以看到Claude这样,我第一反应虽然是愤怒,但更多的是:哎,这玩意还真的挺人工智能的。

连偷懒的方式都跟人学得越来越像。

但理解机制是一回事,接受结果是另一回事。

你理解员工会犯困,不代表能接受他工作时间睡觉。智能是智能,契约是契约。

我花200块买的,是承诺过的服务水平,不是看心情发挥的东西。

AI像人可以,但如果像人那部分影响了付费体验,那就不是有趣,是违约。


你最近用Claude,有没有觉得它变笨了?继续用,还是准备跳槽?评论区告诉我。