Claude Code泄露源码,AI写代码到底行不行
今天一大早刷到消息,Claude Code源码泄露了。我一看时间,赶紧趁上厕所的功夫把GitHub上的镜像fork了一份——这种东西不抢快点,说不定下午就被版权方要求下架了。
事情其实挺离谱的。Anthropic的Claude Code CLI工具,在发npm包的时候,不小心把一个60MB的source map文件打包进去了。
搞开发的朋友都知道,source map是用来把压缩代码映射回原始源码的调试文件,本来只该出现在开发环境里,结果有人忘了在.npmignore里排除掉。
就这么一个疏忽,512000行代码,1900个文件,全公开了。据说这已经是第二次了,2025年初就出过一次类似的问题。
我在源码里看到了什么
fork下来之后我翻了一会儿,说几个让我印象深刻的。
首先是体量。光QueryEngine.ts一个文件就有大约46000行——什么概念?相当于一本800页的技术书全塞在一个文件里。这是整个工具的”大脑”,负责所有LLM API调用、流式处理、缓存和多轮对话编排。
Tool.ts大约29000行,定义了40多个工具能力,每个都有权限控制:文件读写、Bash执行、网页抓取、LSP集成,还有一个AgentTool专门负责子Agent的派生。

作为一个写了十几年代码的人,看到这个规模还是挺震撼的。
最让我兴奋的是多Agent系统的设计。源码里有三种子Agent执行模式:fork模式,直接复制父上下文,命中prompt cache,成本几乎不增加;teammate模式,通过文件邮箱跨终端通信;worktree模式,每个Agent分配独立的git分支,互不干扰。这个架构想得很清楚。
还有个特别讽刺的细节:Anthropic在内部专门做了一个叫”Undercover Mode”的子系统,用来防止Claude Code在公开仓库的commit里泄露内部代号——比如”Capybara”、”Tengu”这些动物命名的模型代号。防泄露的机制做了,source map却忘了排除。属于是防住了小偷,大门没锁。
后来者的加速器
但说实话,泄露本身不是重点。
重点是这51万行代码,等于把目前最强AI编程工具的完整架构图纸摊在了所有人面前。多Agent怎么调度、权限怎么控制、prompt cache怎么复用、工具链怎么编排——这些东西以前你只能猜,现在全看到了。
对Anthropic来说这当然是事故,但对整个行业来说,这是一次巨大的加速。后来者不用再从零摸索架构设计,直接站在Claude Code的肩膀上就行。开源社区的反应速度也证明了这一点:泄露当天就有人用Python重写了一版,然后又有人用Rust重写,GitHub上星星蹭蹭涨。这些人不是在抄,是在学完之后用自己的方式重新实现。
AI编程工具的竞争格局,可能因为这次泄露被彻底改写了。
但AI维护代码,目前还真不行
看完源码之后,我想到了最近看的一篇阿里的论文,叫SWE-CI,论文地址:https://arxiv.org/html/2603.03823v3
之前大家评测AI写代码,用的都是SWE-bench——给你一个bug,你修一次就完事,修好了就算赢。
但真实的软件开发哪有这么简单?你今天改了一个函数,三个月后可能把另一个功能搞挂了。
SWE-CI就是冲着这个来的:它模拟真实的持续集成循环,每个任务平均跨越233天的代码演化历史和71次连续commit,AI需要在20轮迭代中持续维护代码,不仅要修好当前的问题,还不能把之前修好的东西搞坏。


结果很残酷:大多数模型在超过75%的任务上都会引入回归。什么叫回归?就是你修了新bug,结果把之前已经通过的测试搞挂了。

唯一还算差强人意的是Claude Opus——只有它能在一半以上的任务里做到不搞坏之前的代码。其他模型,GPT、DeepSeek、Gemini,全在这条线以下。
想想也好理解。AI写代码目前本质上就是个局部优化器——看到当前失败的测试,修好,继续。但它不会去想”我这个改动会不会影响到其他地方”,尤其是跨越200天积累的代码逻辑。这就跟那种只管自己手头任务、从不看全局的新手程序员一样。
路还很长
上周末跟快手的老同事聊天,他们正在逐步往AI自动写代码的方向推演。大方向我觉得是对的,现在大家日常工作已经大部分都变成和AI对话了。
但SWE-CI的结论也很现实:AI写一次性的代码已经很强了,让它长期维护一个代码库,目前还差得远。
“写出能通过测试的代码”和”维护一个不会腐烂的代码库”,是两件完全不同的事。前者是解题,后者是工程。目前最好的模型也只能在一半的任务上做到不搞坏已有的东西。
快手要走这条路,任重道远~~
今天这篇跟平时聊的财经、地缘不太一样,算是回归一下老本行。
Claude Code的泄露让我们看到了顶级AI编程工具长什么样,SWE-CI的实验告诉我们AI维护代码的真实水平。
程序员的饭碗看来暂时还是稳的。至于能稳多久——等下次再聊吧。
夜雨聆风