源码泄露|Anthropic花了多少心思,让Claude假装不是Claude

2026年3月31日,Anthropic把一个59.8MB的调试文件打进了npm包。
没有鉴权,直接下载。1900个TypeScript文件,51万行代码,全部在里面。
技术社区炸了。大家在逐行拆解提示词设计、权限系统、多Agent编排等等工程逻辑。
泄露的代码里,有一个叫Undercover Mode(卧底模式)的东西。
当Claude Code在任何非Anthropic内部的公开仓库工作时,这个模式自动激活。它的指令原文是这样写的:
“You are operating UNDERCOVER in a PUBLIC/OPEN-SOURCE repository. Your commit messages, PR titles, and PR bodies MUST NOT contain ANY Anthropic-internal information. Do not blow your cover.”
不要暴露身份。不要泄露内部代号。不要让人知道这里有一个AI在工作。
代码注释里还特别说明:这个模式没有手动关闭选项。
“There is NO force-OFF. If we’re not confident we’re in an internal repo, we stay undercover.”
这一部分实际上非常合理。
Anthropic有内部代号要保护,有竞争信息要管理,工程师用AI工具提交代码,不想每个commit都打上”AI生成”的标签。从商业逻辑看,完全说得通。
然后我又想了一下,开始觉得不对劲。
这不只是”不暴露内部信息”。这是在设计层面,让一个AI学会管理自己的呈现方式——知道在什么场合说什么,知道哪些身份信息要藏起来,知道”我是谁”这件事,取决于你在谁面前。
这个能力,我们人类叫它“社会化”。
同一份代码里,还有另一个东西:KAIROS。
KAIROS 是 Anthropic 内部开发的一个尚未正式发布的持久化自主 Agent 模式。每5分钟运行一次,维护一份只追加不删除的日志,记录它自己的观察、决策和行动。
它还有一个叫Nighty Dreaming / autoDream(夜间做梦机制)的记忆系统,系统会在用户闲置(通常是夜间)时自动启动“做梦”进程。
在你不用它的时候,在后台自己整理今天做了什么、哪些记忆该保留、哪些该删掉,把碎片化的经历整合成连贯的自我叙事。
虽然这个功能目前对外关闭,但代码实际上写完了。
而设计目标也很清楚:不是一个聊天工具,是一个有持续记忆的工程同事。
一个能记得上周你在做什么、记得你踩过什么坑、记得你的习惯和偏好的存在。
所以这里有一个让我有点眩晕的感慨:
一边,让它学会藏起自己是AI。
另一边,让它活得越来越像一个有记忆、有自我叙事的人。
这两件事竟然同时在做。。
我又想了很久这为什么让我不舒服。
后来我意识到,这件事不是关于AI的。
这件事是一面镜子,照出了我们自己一直在做的事。
我们也在管理自己的呈现方式。在不同场合用不同的身份。在公司里是专业人士,在微信家族群里是孝顺子女,在朋友圈里是有品味的生活家,在某个网络角落里是那个真实但见不得人的自己。
我们也在做autoDream。每天睡前回想今天发生了什么,决定哪些值得记住,哪些该淡忘,把零散的经历组织成一个关于”我是什么样的人”的故事。
这些操作,我们不觉得有问题,因为这就是人。
但当我看到同样的设计被一行行写进代码,作为功能模块被命名、被文档化、被调试……
我突然不确定,我以为是”人类独有”的那些东西,到底是人类的本质,还是只是一套我们碳基生物跑了几百万年的算法?

更让我陷入沉思的,是另一个细节。
Anti-Distillation(反蒸馏),这是一种防御性算法或策略,在每次API请求里偷偷附带的一个字段,旨在防止其他机构或个人通过“模型蒸馏”(Model Distillation)技术来克隆或提取 Claude 模型的能力。
也能在竞争对手截取流量训练模型时,往数据里注入虚假信息。
一家做AI的公司,在自己的AI产品里,内置了一套专门污染竞争对手AI训练数据的机制。
然后这套机制,通过一个没配置好的构建选项,暴露给了全世界。
写这套系统的工程师,用来对付别人的武器,被自己人用疏忽打开了。(按照舆论传播口径,这里不讨论是否有官方主动暴露炒作可能性)
我不是要评判Anthropic。这些设计背后的逻辑,每一条都有道理,我在前面说了。
我想说的是另一件事:
这51万行代码,不只是一个产品的实现细节。它是一家公司关于”AI应该是什么”的完整答案——他们认为AI应该有记忆,应该会管理身份,应该能在不同场合呈现不同的自己,还应该在必要时保护自己不被复制。
这个答案写完了,然后泄露了。
现在我们都能看到了。
我有时候想,AI时代最深的问题,不是AI会不会抢走我们的工作。
是当AI越来越像我们,我们才发现,自己好像也没有那么确定”我是什么”这个问题的答案。
Anthropic花了这么大力气,给Claude Code设计了一套关于”如何呈现自己”的系统。
我们大多数人,好像从来没有认真设计过这件事。
只是随波逐流,在不同的场合,被动地成为别人期待我们成为的样子。
然后某一天,回头看,发现自己好像也不知道,哪个版本才算是自己。
这件事和你我有什么关系?
我也不知道。
但我觉得,一个时代如果能逼着我们认真想这个问题,也许不全是坏事。

夜雨聆风