AI编程工具的2026十字路口-夜雨聆风

AI编程工具的2026十字路口

4月23号，Anthropic发了一篇工程博客，标题很克制，「关于近期Claude Code质量报告的更新」。

731条评论，941个赞。

我翻完了全文和评论区，说真的，看完心情挺复杂的。不是因为Claude Code出了问题，软件有bug太正常了，而是因为这篇postmortem里写的东西，暴露了一个更深层的问题，一个所有AI编程工具都在面对，但没人愿意直说的问题。

先说发生了什么。

三个bug，七周混乱

Anthropic承认了三个独立的问题，分别在不同时间影响了Claude Code的质量。

第一个，3月4号，他们把Claude Code的默认推理努力从「高」降到了「中」。原因是Opus在「高」模式下偶尔会思考太久，界面看起来像卡死了。内部测试显示，中等努力「智能略低但延迟显著降低」，看起来是个合理的权衡。

但问题在于，大多数用户根本不知道自己被降级了。他们只是觉得Claude Code变笨了，而且是一夜之间变笨的。

4月7号才回退。

第二个更离谱。3月26号引入了一个缓存优化的bug。本来设计是会话空闲超过一小时后清除旧的思考记录，减少恢复会话时的token成本。但实现上出了问题，它不是只清除一次，而是会话剩余的每一轮都持续清除推理历史。

你跟Claude聊得越久，它越健忘。它会忘记自己为什么做了之前的修改，忘记之前调用过什么工具。如果中间你还发了个消息，当前轮的推理也会被丢掉。

这个bug存活了15天。

第三个，4月16号，为了减少Opus的冗长输出，他们加了一条系统提示词，限制工具调用之间的文字不超过25个词，最终回复不超过100个词。

结果性能下降了3%。

三个问题叠加在一起，持续了大约七周。用户的感受是Claude Code的质量在「随机波动」，有时候还行有时候突然就不行了。因为三个bug影响的模型和时间段不完全重合，所以表现出来的症状不一致，调查起来非常困难。

4月20号全部修复。

社区炸了

HN评论区才是真正有意思的地方。

Anthropic的工程师Boris亲自下场回复，这个姿态本身很加分。他详细解释了KV cache的成本结构，团队尝试过的三种方案，承认「我们本应该预见到用户不会主动修改默认值」。

但社区的不满并没有因为坦诚而消散。

一条被大量点赞的评论说，「人们在你更改默认值后立刻就发现了问题。尽管有大量报告，你仍然保持了一个月。然后你发布了一个完全未测试的功能。」

另一条更尖锐，「A/B测试是目前最令人反感的行为。其实就是悄悄给一部分用户一个完全不同的产品。」

有人已经开始用脚投票，「Opus 4.7让我彻底失望，过去30天几乎没见GPT5.4犯错」。还有人直接取消了Max订阅。

最让我触动的一条评论是这样的，「你大可以收够实现最高质量的费用，我会付。但别他妈的在我身上做A/B测试。」

这句话背后的逻辑其实很清晰，用户不怕贵，怕的是不知道自己花了多少钱，拿到了什么质量。

Copilot也炸了

巧了。几乎同一时间，GitHub也干了件让开发者炸锅的事。

4月27号，GitHub宣布Copilot将在6月1号转向用量计费。

552条评论，759个赞，情绪比Claude Code那边还激烈。

之前的计费模式是按请求数算，每个请求消耗一定数量的Premium Request Units。用完了还可以回退到低成本模型继续用。

新模式用AI Credits替代，按实际token消耗计费。听起来很合理对吧，谁用得多谁多付。

但社区算了一笔账。

模型倍率的变化是这样的，GPT和Sonnet从1倍跳到6倍，Opus从3倍跳到27倍。有人指出，在10美元的月费计划上，如果你让agent不停跑Opus，理论上可以用掉价值500美元的tokens。

所以之前的定价其实就是亏钱的。GitHub现在要把这个窟窿堵上。

问题在于，堵窟窿的方式让用户觉得自己被骗了。

一条评论说，「花10块还必须在月底前用完，而直接向API提供商买10块可以用多久都行。GitHub的API定价和提供商一模一样，那我为什么还要通过GitHub？」

另一条，「按使用付费的AI比手机按短信收费还疯狂1000倍，你连想要的结果都不一定能得到，但你已经为尝试付了钱。」

还有一条我觉得特别精准，「我喜欢Copilot是因为不用考虑tokens。按使用计费让我要像关注天然气账单一样关注token使用，很难同时专注于项目本身。」

十字路口的矛盾

这两件事几乎同时发生，我觉得不是巧合。

它们共同指向了一个根本性的矛盾。AI编程工具正处于一个十字路口，左手边是「让AI尽可能聪明」，右手边是「让成本可控」。

Anthropic选择了暗中降级智能来控制成本。三个独立变更的共同目标都是减少token消耗和延迟。推理努力从高降到中，是为了减少思考时间。缓存优化是为了减少GPU内存占用。限制输出字数是为了减少生成成本。每一个单独看都有合理的技术理由，但叠加在一起就是用户感知到的「变笨了」。

GitHub选择了把成本直接转嫁给用户。之前是补贴模式，10块钱随便用。现在变成10块钱的credits，用完就没有了。Opus的倍率从3倍涨到27倍，等于同一个操作成本翻了9倍。

两种策略，一种结果，用户的体验都在变差。

为什么会走到这一步

但我想聊的不是该骂Anthropic还是该骂GitHub。

我觉得真正值得想的是，为什么会走到这一步。

答案可能就藏在一条HN评论里，「事后看，如果一个agent在一次请求中可以消耗差异巨大的token量，按请求计费根本说不通。这些定价方案是在编码agent改变token使用动态之前设计的。」

这话说到点子上了。

一年前，AI编程工具还是「你打几个字，它补全一行」。现在，Claude Code可以跑一个多小时，自主完成跨文件的代码重构。Devin可以自己建项目、写代码、跑测试、修bug。这些agent一次任务的token消耗可能差100倍。

旧的定价模型是按「补全一行代码」设计的。新的使用方式是「帮我重构整个模块」。成本差了几个数量级，但价格没变。

这不是哪家公司的问题，这是整个行业在从「工具」走向「agent」的过程中，必然要面对的成本重构。

普通开发者怎么应对

那对我们普通开发者来说，怎么应对？

我自己有几点不成熟的想法。

第一，别把鸡蛋放在一个篮子里。这次事件里最明智的做法是那些同时用Claude Code和GPT的开发者，一个出了问题无缝切到另一个。AI编程工具的忠诚度不该太高，谁好用用谁。

第二，关注API直接调用。如果Copilot的credits定价和直接调API一样，那通过Copilot中间层的价值在哪里？代码补全确实还免费，但核心的agent功能，直接用API可能更灵活也更透明。

第三，成本意识必须建立起来了。之前AI编程工具便宜得不像话，那是补贴换市场。补贴总会结束的。学会估算一个任务大概消耗多少tokens，大概值多少钱，这是2026年开发者的基本素养。

第四，开源方案值得关注。HN评论区有人提到，如果Claude Code开源，这些问题可能早就被发现了。不是所有东西都要靠厂商的postmortem来知道出了什么问题。Cursor Camp的628个赞也说明，社区在用自己的方式推动AI编程工具的普及和透明。

AI编程工具到底在卖什么

最后说点我自己的感受。

我一直在想一个问题，AI编程工具到底在卖什么。

卖的是「帮你写代码」？那你直接调API就行了。卖的是「帮你写好代码」？那质量就不能降。卖的是「帮你省心」？那按用量计费就不省心。

Anthropic的postmortem写得很好，坦诚、技术细节到位、改进措施具体。但「坦诚」是事后补救，不是事前保障。用户信任你，把代码交给你写，你暗中降低了智能，哪怕理由再合理，这份信任也已经受损了。

GitHub的计费变更从商业逻辑上完全说得通。补贴不可持续，按量付费是必然。但「说得通」和「让人舒服」是两回事。一个程序员在写代码的时候还要分心算tokens，这个体验已经背离了Copilot最初「你的AI配对程序员」的承诺。

2026年的AI编程工具行业，正在经历一个从「野蛮生长」到「精打细算」的转折。野蛮生长阶段，用户享受了远超付费的价值。精打细算阶段，每一分钱都要算清楚。

这对用户来说未必是坏事。当价格回归合理，当厂商不能再靠补贴掩盖产品问题，真正的好产品才能脱颖而出。

只是这个转折期，会有点疼。

对了，Anthropic在postmortem最后做了一件事，重置了所有订阅用户的使用限额。这个动作本身比任何承诺都实在。

而GitHub给了6月1号这个时间点，还有一个多月。如果你是年付用户，该算算账了。

💬 互动话题：

你现在的AI编程工具月均花费大概是多少？Claude Code和Copilot这两件事之后，你会考虑换工具或者调整使用方式吗？

欢迎在评论区聊聊你的看法。如果觉得文章有价值，点赞+在看让更多开发者看到，关注「AI驾座」持续获取AI编程实战干货。

我是AI驾座，专注AI编程实战和工具拆解。下次见。