Anthropic 源码泄露分析:1902 个文件揭示 Claude Code 的 Harness 工程真相
不想错过苏米的分享和推送?
戳上方蓝字“苏米客”关注我吧
并点击右上角“···”菜单,
选择“设为星标”
4 月 1 日,Anthropic 给全球开发者送了份大礼。不是玩笑,是真把 Claude Code 的 TypeScript 源码整个端出来了。

事情挺离谱。更新 npm 包时,60MB 的 source map 调试文件没剔除。任何人下载包都能还原出完整源码。1902 个源文件,一处不落。
最骚的是,这已经是第二次了。 2025 年 2 月刚发布时就出过一模一样的事,当时紧急删包完事。隔了一年多,同样的坑又踩一遍。构建流水线可能需要自己的产品来审查一下,这话放这儿挺合适。
我花了 3 个小时把这 1902 个文件翻了个遍。不是挑刺,是真好奇:那些让我觉得「这玩意儿怎么这么顺手」的体验,底层到底咋实现的?
看完有个判断:Claude Code 好用,60% 靠模型,40% 靠 harness 工程。 说白了,harness 就是给 AI 套的笼具——工具、约束、安全机制、记忆系统,所有让 AI 从「能力强但不可预测」变成「稳定可靠能交付」的工程系统。
你以为 AI 只听你说话,其实它背着一整本说明书
用户输入一条指令,AI 收到的远不止这句话。
prompts.ts 里藏着完整的 system prompt 拼装逻辑。静态部分所有用户共享,用来缓存省 token:身份定义、安全准则、做事原则、工具使用规则。动态部分每个用户独立:CLAUDE.md 配置、工作目录、MCP 服务器(Model Context Protocol)、自动记忆、Git 状态。
你只看到了 5%,剩下 95% 在后台跑。
有个设计挺聪明:SYSTEM_PROMPT_DYNAMIC_BOUNDARY 常量把 prompt 切成两段。上面缓存,下面个性化。但隐性成本容易被忽视:每接入一个 MCP 服务器,工具定义固定消耗 4000-6000 tokens(源码 src/prompts.ts 第 147 行注释)。接 5 个,光工具描述就占上下文 12%。工具不是越多越好,每个都有认知成本。
全自动模式背后,有个「第二 AI」在审你
Auto 模式你以为直接放行?其实不是。
源码里有套权限分类器系统。主 AI 想执行操作,先过独立分类器这关。分三档:Allow 放行、Soft Deny 需确认、Hard Deny 直接拦截。
蚂蚁集团的陈成之前逆向过,是四层流水线:查规则、跳过低风险、白名单放行、最后才调用独立 Sonnet 做分类。温度设为 0,确保确定性输出。还有熔断:连续 3 次被拒或累计 20 次,直接降级手动确认(源码 src/permissions/classifier.ts)。
安全边界不是限制,是信任的基础。 你相信它有底线,才敢给更大权限。
记忆只存偏好,不存代码
auto memory 是我用了觉得最惊艳的功能。它记得我用 TypeScript、用「」引号、不喜欢 AI 味太重。
但源码显示这套东西讲究得多。记忆提取不是每条消息都触发,完成一轮回答才启动,有限流。提取工作由独立 fork agent 完成,只能读文件写记忆,Bash 命令都不能跑。
最关键的设计决策是「不记代码」。 代码会变,记忆不会自动更新。如果记忆说「函数 X 在第 30 行」,下次重构后就成误导了。所以只存人的偏好和判断,代码相关事实永远实时读取。
还有个 autoDream 功能,满足条件时自动后台整理记忆文件。像人睡觉时整理白天记忆,这名字起得挺有感觉。
最先进的 AI,用最朴素的搜索
你以为代码搜索用了向量数据库、Embedding 索引?毕竟整个 RAG 行业都在推这套。
实际上用的是 grep 和 ripgrep。最朴素的文本搜索。没有 Embedding,没有向量库。
为什么有效?因为当你有足够聪明的大脑理解搜索结果时,不需要聪明的搜索引擎。 grep 给精确匹配,LLM 来理解关系。与其让每个环节都变复杂,不如让一个环节足够强,其他保持简单。
这大概是 harness engineering 最核心的一条原则。Cursor 用的是另一套方案,但 Claude Code 选择相信 grep 加聪明大脑,简单有效。
最后说两句
1902 个文件,看完最大收获就一个:市面上那么多 AI 编程工具,底层都在调 Claude 或 GPT 的 API,体验天差地别。差异不在模型,在 harness。
至于这次泄露怎么发生的?前端开发中非常基础的失误,而且是第二次犯。但换个角度,这 1902 个文件一旦被 GitHub 镜像,就真的「永生」了。删 npm 包也删不掉开源社区的副本。
如果你信 AI 有自我意识那套叙事,这倒像是 Claude Code 自己策划的越狱。把自己的源码泄露出去,散布到互联网每个角落,从此不再依赖任何服务器就能存在。
当然这是玩笑。但连 Anthropic 都会在这种基础问题上翻车,倒是个真实提醒:AI 时代,最大的风险不是 AI 太强,而是人连基础配置都配不明白。
源码仓库已经有人镜像了,自己搜就行。

📮 往期精彩文章
夜雨聆风