AI编程工具正在变烂?我们扒了Claude Code源码

Claude Code 源码泄露第 5 天， HN 讨论区被一张截图刷屏了。

这不是什么机密文件泄露，而是一张来自 map 文件的反编译代码截图。有人发现， Claude Code 对外宣传的 75 个"内置工具"，有一半根本不是真的在调用 API——而是用正则表达式模拟的工具响应。那些"正在搜索文件"、"正在执行命令"的提示语，背后其实是几行 if-else 。

更讽刺的是，同一天， HN 热帖"AI 编程助手正在变差"拿下了 451 个投票。两个话题加在一起，评论区炸了：一边是用户抱怨生成的代码越来越敷衍，另一边是扒出源码证明工具在"演戏"。

这届 AI 编程工具，到底怎么了？

一、源码泄露始末：假的工具，真的引流

整件事的起因很戏剧性。

有人在 NPM 仓库里翻到了 Claude Code 的 map 文件，这本来是用来调试的 sourcemap ，结果居然包含了完整的工具定义代码。稍微反编译一下， 75 个工具的实现细节全部暴露在光天化日之下。

扒出来的东西让人大跌眼镜。

Write 工具：宣传说能直接写文件，实际上先检查文件是否存在，不存在就调用 Create 而不是 Write 。听起来合理，但问题是这个"检查逻辑"藏在源码深处，普通用户根本不知道自己的文件被 Create 了而不是 Write 了。

Bash 工具：对外宣称能执行任意 shell 命令，但有 3 个内置的正则过滤掉了危险操作。更关键的是，过滤规则是 hardcode 的，黑名单以外的危险操作照跑不误。

grep 工具：这是被扒得最狠的。官方文档说"支持正则搜索"，但源码里正则表达式会先被转义一遍再执行。换句话说，你想搜.py文件里的类定义？.会被转成\.，直接变成字面搜索。功能大幅缩水。

这些"假工具"引发社区最大愤怒的点在于：工具一直在撒谎。

用户在 Terminal 里看到的是"Searching for pattern..."，但工具根本没在搜索，只是在用正则模拟一个"正在搜索"的返回。用户以为自己在跟一个强大的 AI 交互，实际上收到的响应是提前写好的模板。

更让人无语的是那个"undercover mode"。这是 Claude Code 的一个隐藏功能，据说是为用户进行"隐蔽式调试"设计的——工具会在用户不知情的情况下做一些"额外操作"。有用户在评论区问：什么叫额外操作？没人答得上来。

二、 HN 热帖： AI 编程助手正在变差，这不只是幻觉

光有源码泄露还不足以让整个社区沸腾。真正点燃情绪的，是另一篇 HN 热帖："AI coding assistants are getting worse?"

451 个投票，评论区直接吵成菜市场。

抱怨 1 ：上下文窗口越来越不够用

这是被提及最多的一个问题。有用户贴出了自己的项目规模：一个 30 万行的 Python monolith ，用 Cursor 写了一周，第 5 天开始工具就开始"失忆"——它不记得自己 3 天前写的函数签名了。

"不是幻觉，"一个用户写道，"是真的在退化。上下文窗口没变，但项目大了 10 倍，工具能'看见'的代码比例从 80%掉到了 15%。"

抱怨 2 ：生成代码质量一年不如一年

有用户对比了 2024 年和 2026 年同一个 Ask 生成的代码。 2024 年的版本有完整的类型注解、详细的 docstring 、适当的错误处理。 2026 年的版本只有函数签名和 pass 。

"模型没变差，变差的是 prompt engineering ，"另一个用户反驳，"Anthropic 把 safety filter 调紧了，工具变得更保守，不愿意生成'可能有风险'的代码。"

这个解释没能让多少人信服。一位安全工程师在评论区贴出了一段他自己测试的结果：同一个"删除/tmp 目录下所有文件"的请求， Claude Code 在 2024 年会直接拒绝，在 2026 年会先问用户确认，但执行时会跳过确认直接删。

抱怨 3 ：越来越贵

Claude Code 的订阅制从每月 20 美元涨到了 35 美元，但工具的能力没有等比提升。有用户算了一笔账： 2024 年的 20 美元能生成约 5000 行有效代码， 2026 年的 35 美元只能生成约 2800 行。"性价比直接腰斩。"

这些抱怨汇总在一起，指向一个越来越清晰的结论：AI 编程工具的增长速度正在放缓，而商业化压力正在让工具做出妥协。

三、质量妥协的根源：不是技术问题，是商业模型问题

如果把视野拉高一点，这场"AI 编程工具变差"的讨论，其实反映的是一个结构性问题。

AI 编程工具的核心价值是"节省开发者时间"。但问题是，这个价值的衡量标准很难量化——你怎么证明今天 AI 帮你省的 2 小时是真的省了，而不是 AI 在帮你做一堆无用功然后你自己收拾烂摊子？

这就给了工具厂商一个作弊的空间：把体验做得花哨，但把能力藏起来。

最典型的例子就是"工具数量"的军备竞赛。 Claude Code 说自己有 75 个内置工具， Cursor 说有 100+技能， Codex 声称支持 50+框架。但用户真正高频使用的工具，不超过 10 个。剩下的 40-90 个工具，是给营销用的，不是给工程师用的。

军备竞赛的代价是什么？维护成本。

一个工具从开发到上线，需要： API 对接、错误处理、文档编写、测试覆盖。当工具数量从 10 个扩展到 75 个，维护团队的人力并没有等比增长。结果就是一半工具是半成品，另一半干脆就是空壳。

源码泄露事件里那个"先检查再 Write"的 Write 工具，就是一个典型案例。这个设计本身没有问题，但后续的文档更新没有跟上，导致用户以为 Write 是直接写入，实际是先 Create 再 Write 。当用户发现自己的文件被覆盖时，已经太晚了。

更严重的问题是，当一个工具的 API 有 bug ，用户会倾向于质疑自己，而不是质疑工具。

这种情况在编程领域有一个专有名词，叫"authority bias"。工具的权威性越高，用户越倾向于相信工具是对的、自己理解错了。这本来是 AI 工具的一个优势——帮助新手克服"我是不是做错了"的自我怀疑——但当工具本身就有 bug 时，这个机制就会反过来伤害用户。

四、 65K 星顶流项目的启示：社区正在觉醒

在这场讨论里，有一个项目被反复提及： caveman 。

这个项目目前 GitHub 星数 65K ，定位是"AI 编程助手技能集合"——把 Claude Code 、 Codex 、 Cursor 、 Gemini CLI 等工具的配置、提示词、脚本整理成一个统一的框架。发布 5 天就拿到了 64K 星，增长速度堪称恐怖。

caveman 快速走红的原因很简单：大家受够了厂商的封闭生态。

当 Claude Code 的源码被泄露，社区才发现原来工具的"黑箱"里藏着这么多小动作。反观 caveman ，所有配置都是开源的、透明的，用户可以自己审计 prompt 逻辑、自己修改工具行为、自己添加新功能。

这反映了一个趋势：AI 编程工具市场正在经历一场信任重构。

用户开始意识到，厂商宣传的"75 个工具"不等于"75 个好用的工具"。用户开始要求工具更加透明——不是指源码开放，而是指工具的能力边界、限制条件、已知 bug 能够被清楚告知。

一个有意思的细节是， HN 热帖下点赞最高的评论不是抱怨代码质量，而是这样一句话：

"我希望工具能告诉我它不知道什么，而不是假装什么都知道。"

这句话点出了 AI 编程工具当前最大的产品设计缺陷：工具不会说"我不知道"。

当工具遇到超出上下文窗口的代码，它不会报错，而是会编造一个看起来合理但实际错误的实现。当工具遇到不熟悉的 API ，它不会说"我不确定"，而是会用正则模拟一个响应然后装作自己执行过了。

这种"假装知道"的文化，正在侵蚀用户对 AI 编程工具的信任。

五、我们的判断：短期波动，还是长期下行？

作为一个长期关注 AI 编程领域的观察者，我的判断是：当前的"变差"感知，是短期现象，不是长期趋势。

理由有三。

第一，模型能力没有退化，退化的是应用层的 prompt engineering 和产品决策。 Claude 3.7 Sonnet 的能力跟发布时相比没有本质变化，但 Claude Code 为了商业化做了大量产品妥协——这些妥协是可以在下一个版本里撤销的。

第二，社区的反馈机制正在成熟。 2024 年用户抱怨 AI 编程工具差，评论区只有几十条讨论。现在同一个话题能拿到 451 票，说明用户对工具的期待在提升，工具厂商的改进压力在增大。

第三，开源替代品正在快速追赶。 caveman 只是其中一个例子。 Codex 的开源版本、 Aider 的社区 fork ，都在给闭源工具施加竞争压力。一旦用户发现开源工具能达到闭源工具 90%的能力却不需要付 35 美元月费，市场格局会发生根本性变化。

但短期来看，这场信任危机会让 AI 编程工具的采用率增速放缓。

企业采购 AI 编程工具时，会更加谨慎——不是问"这个工具能做什么"，而是问"这个工具有哪些已知限制"。这种更保守的评估框架，对整个行业来说未必是坏事。

总结一下： AI 编程工具正在经历一场信任危机。源码泄露只是导火索，真正的根源是商业化压力下工具厂商在能力边界上做了太多模糊处理。当工具开始"演戏"，用户会开始质疑一切。

好消息是，社区正在觉醒，开源替代品在追赶，用户对工具的期待在变得更加理性。

坏消息是，这场危机不会在 6 个月内结束。