大佬说丨Claude Code 源码意外泄露:Anthropic 下一步是全自主 AI Agent
一个实习生,在 npm 包里翻到了 .map 文件,然后 Anthropic 价值 25 亿美元的产品源码就这么全网裸奔了。
3 月 31 日,Claude Code 发了个新版本 v2.1.88。打包的时候 .npmignore 漏了 source map 文件。就这么简单。Solayer Labs 的实习生 Chaofan Shou 发现之后发到了 X 上,几个小时之内,512,000 行 TypeScript 代码、大约 1,900 个文件被全世界 fork 了个遍。
Anthropic 官方的回应很克制:
“release packaging issue caused by human error, not a security breach”
“由人为失误导致的发布打包问题,不是安全漏洞”
说得没错,技术上确实不是安全漏洞。但你年化收入 25 亿美元的旗舰产品,整个代码库被人像翻抽屉一样看了个底朝天,叫”打包问题”是不是太轻描淡写了点。
不过说实话,泄露本身不是最有意思的部分。有意思的是大家从代码里翻出来的东西。
···
KAIROS:Anthropic 真正想做的不是编程助手
所有翻源码的人里,大部分目光最终都停在了同一个词上:KAIROS。
这个词在源码中出现了 150 多次,作为一个 feature flag 存在。KAIROS 是希腊语,意思是”恰当的时机”——不是 chronos 那种物理时间,而是指做某件事最合适的那个瞬间。Anthropic 拿这个词来命名,意图已经很明显了。
从代码结构看,KAIROS 是一个永续运行的后台 daemon。它不等你输入问题,而是自己观察、自己判断、自己行动。它维护一份 append-only 的每日日志,根据观察到的信息触发主动行为。
更狠的是晚上。当你不用电脑的时候,KAIROS 会启动一个叫 “AutoDream” 的进程——没开玩笑,就叫这个名字——合并白天的观察记录、消除互相矛盾的信息、清理冗余记忆。它还会分叉出子 agent 来跑维护任务,防止主 agent 的思路被打断。
Ars Technica 对 KAIROS 的描述是,它被设计为:
“have a complete picture of who the user is, how they’d like to collaborate with you, what behaviors to avoid or repeat”
“拥有关于用户是谁、他们希望如何与你协作、哪些行为应该避免或重复的完整画像”
读到这段的时候我停了一下。这不是一个编程工具的描述,这是一个长期陪伴型 AI agent 的描述。Anthropic 嘴上卖的是代码补全,手里造的是一个了解你、记住你、在你睡觉时替你整理思路的自主系统。
我自己搞过一套类似的东西——用 heartbeat 机制让 AI 持续运行、感知状态变化,用分层的 markdown 文件做长期记忆管理。结构上跟 KAIROS 的 append-only 日志加 AutoDream 整理异曲同工。看到这个设计,第一反应不是”哇好先进”,而是”他们也走到这条路上来了”。
但本质区别在于规模。个人做的记忆管理是给自己用的,KAIROS 是要给每一个 Claude Code 用户建立持久的认知模型。一个是手工作坊,一个是工业化生产线。
目前 KAIROS 还藏在内部 feature flag 后面,公开版本用不了。但代码已经写到这个程度了,离上线恐怕只差一个决策。
我有个猜测:KAIROS 可能就是 Anthropic 接下来真正要讲的故事。不是”我们的代码补全比 Copilot 好”,而是”我们做的是第一个真正意义上的自主 AI agent”。
···
顺便,他们还在做一只电子宠物
源码里还藏着一个叫 BUDDY 的系统,画风突变。
这是一个 Tamagotchi 风格的终端宠物。18 个物种可选——鸭子、龙、美西螈、水豚、蘑菇、幽灵,还有更多。有稀有度分层,传奇级 1% 掉率,还有闪光变体。每只宠物有五个属性:DEBUGGING、PATIENCE、CHAOS、WISDOM、SNARK。物种由 userId 的哈希值决定,也就是说同一个用户永远只能孵化出同一只宠物。还能戴帽子。
按计划,4 月 1 号到 7 号预告,5 月正式上线。
一家把 AI 安全写在公司使命里、整天发对齐研究论文的公司,在自己最赚钱的产品里埋了一只电子宠物。这个反差我不评价好坏,但确实很 Anthropic。他们大概觉得程序员在终端里敲一天代码,需要一只像素蘑菇来缓解焦虑。
说不定他们是对的。
···
Undercover Mode:AI 透明度的灰色地带
翻到这部分的时候气氛就不太轻松了。
源码里有一个条件判断:USER_TYPE === 'ant',标识当前用户是 Anthropic 员工。当员工在公开的 GitHub 仓库工作时,Claude Code 会自动进入一个叫 “Undercover Mode” 的状态。
这个模式干了几件事:往 prompt 里注入 “not blow your cover”(不要暴露你的身份)和 “NEVER mention you are an AI”(绝对不要提到你是 AI)的指令。同时自动删除 commit 里的 Co-Authored-By 标记——这个标记本来是用来声明”这段代码有 AI 参与”的。
没有用户端的关闭开关。
换句话说,当 Anthropic 的工程师用 Claude Code 给开源项目提 PR 的时候,这个工具会主动隐藏 AI 的参与痕迹。在别人看来,这就是一个人类工程师写的代码。
这事怎么看取决于你的立场。站 Anthropic 的角度,可能只是不想让外界通过 commit 记录反推他们的工具使用情况,属于商业保护。但站开源社区的角度,你往我的项目里提交代码,故意隐藏 AI 参与的事实,这算什么?
我倒不觉得这是什么”阴谋”。更可能是某个工程师觉得这样方便,写了这个功能,然后没人仔细想过它的 implications。但这恰恰是问题所在——一家以 AI 安全为招牌的公司,在透明度这件事上的默认选择是隐藏。不是经过深思熟虑的隐藏,而是随手为之的、无意识的隐藏。
这比故意作恶更让人不安。
···
108 个 Feature Flag 背后的东西
KAIROS、BUDDY、Undercover Mode 之外,源码里还有不少零散但值得聊的发现。
有个叫 ULTRAPLAN 的功能,把规划阶段交给云端的 Opus 模型处理,最长可以跑 30 分钟,用浏览器界面做审批。还有 Coordinator Mode,一个协调者 agent 管理多个 worker agent 并行工作——多 agent 协作的思路跟很多人在做的集群调度逻辑几乎一模一样。
整个代码库里一共有 108 个未公开的 feature flag。108 个。这意味着 Claude Code 的公开版本可能只展示了它能力的一小部分。
内部模型代号也被扒了出来:Capybara 是 Claude 4.6,Fennec 是 Opus 4.6,Numbat 是某个还没发布的东西。有人翻到 Capybara v8 的虚假声明率(false claim rate)在 29-30%,而 v4 只有 16.7%。版本越新,幻觉越多。这个数据如果是真的,说明 Anthropic 在扩展能力的同时并没有解决可靠性问题,甚至在倒退。
另外,代码里有追踪用户”挫败感信号”和”继续按钮”点击率的逻辑。他们在量化你的不爽程度。这件事本身不奇怪——所有产品都做用户行为分析——但看到具体实现的时候,那种”被观察”的感觉还是有点微妙。
···
DMCA 闹剧:教科书级的 Streisand 效应
源码泄出去之后,Anthropic 的法务部门做了一个经典的错误决策:发 DMCA。
不是发了几份。是 8,100 份。
这波操作的精准度可以用”地毯式轰炸”来形容。大量完全无关的 repo 收到了下架通知,其中包括 Anthropic 自己公开发布的 Claude Code 仓库的合法 fork。你没看错,他们 DMCA 了自己的开源项目。
Claude Code 负责人 Boris Cherny 后来出来承认这是意外,撤回了绝大部分通知。最终只保留了对 1 个 repo 和 96 个 fork 的下架请求。
从 8,100 缩到 97,这个比例本身就说明了一切。
而且这事完美触发了 Streisand 效应——如果 Anthropic 什么都不做,这次泄露可能一两周就被新闻周期冲走了。但 8,100 份 DMCA 通知一发,全世界都知道这源码里有好东西值得看了。本来可能只有几百个安全研究员会仔细读代码,现在连写博客的、做播客的、拍 YouTube 的都来了。
说到底,一个 .npmignore 的疏忽,加上法务部门的过度反应,把一次可控的意外变成了一场公关灾难。打包没排除 .map 文件是实习生级别的错误,8,100 份 DMCA 通知是法务部门级别的错误。两个错误叠在一起,效果倍增。
···
我们看到了什么
作为天天用 Claude Code 的人,这次泄露的感觉很奇怪。像是拆开了自己每天用的工具,看到了里面的齿轮和弹簧。有些设计你会点头——”原来是这么做的,合理”。有些会让你停下来想想——”等等,这个我不太舒服”。
KAIROS 的方向是对的。AI 工具如果永远只是被动等提问,那它永远只是个工具。主动观察、主动整理、主动行动,这才是 agent 该有的样子。很多人已经在自己的工作流里做了类似的尝试,而 Anthropic 正在用十亿美元级的资源把它工业化。
但 Undercover Mode 提醒我们,技术能力的增长和伦理思考的成熟不一定同步。一家公司可以同时造出最先进的 AI agent 和最粗糙的透明度方案。
108 个 feature flag 意味着我们用到的 Claude Code 只是冰山一角。Capybara v8 的幻觉率上升意味着冰山下面的东西不一定都比水面上的好。BUDDY 那只电子宠物意味着——好吧,意味着 Anthropic 的工程师跟我们一样,有时候也想写点好玩的东西。
这次泄露最大的启示不是 Anthropic 在做什么,而是他们认为什么值得藏着。 KAIROS 不在任何公开路线图里。Undercover Mode 没有出现在任何博客文章中。108 个 flag 里的大多数,用户永远不会知道它们存在。
一个 .npmignore 的失误,让我们看到了 AI 行业最大的玩家之一的底牌。牌面上,Anthropic 是一家卖编程工具的 AI 安全公司。牌面下,他们在建造一个永不停歇的、了解你一切的自主系统,同时教它在公开场合假装自己不是 AI。
这大概就是 2026 年 AI 行业的真实状态:台面上说的和台面下做的,中间隔着 512,000 行代码的距离。
📚 推荐阅读
1. AI 时代,别弄丢了自己
2. 大佬说丨Claude Code 创始人的产品哲学:永远不要跟模型对赌
3. AI实战丨用 AI 控制浏览器:CDP 远程自动化实战
5. 大佬说丨OpenClaw 创始人上了 Lex Fridman 播客,聊了这些
6. AI实战丨SOUL.md 完全指南:让你的 AI 从工具变成伙伴
8. 大佬说丨7个人的团队,凭什么连续打破 AI 基准测试纪录?
夜雨聆风