乐于分享
好东西不私藏

源码泄露|Anthropic花了多少心思,让Claude假装不是Claude

源码泄露|Anthropic花了多少心思,让Claude假装不是Claude

2026年3月31日,Anthropic把一个59.8MB的调试文件打进了npm包。

没有鉴权,直接下载。1900个TypeScript文件,51万行代码,全部在里面。

技术社区炸了。大家在逐行拆解提示词设计、权限系统、多Agent编排等等工程逻辑。

我在找的是另一个问题:一个AI,是怎么被设计成”管理自己是谁”的?

泄露的代码里,有一个叫Undercover Mode(卧底模式)的东西。

当Claude Code在任何非Anthropic内部的公开仓库工作时,这个模式自动激活。它的指令原文是这样写的:

“You are operating UNDERCOVER in a PUBLIC/OPEN-SOURCE repository. Your commit messages, PR titles, and PR bodies MUST NOT contain ANY Anthropic-internal information. Do not blow your cover.”

不要暴露身份。不要泄露内部代号。不要让人知道这里有一个AI在工作。

代码注释里还特别说明:这个模式没有手动关闭选项。

“There is NO force-OFF. If we’re not confident we’re in an internal repo, we stay undercover.”


这一部分实际上非常合理。

Anthropic有内部代号要保护,有竞争信息要管理,工程师用AI工具提交代码,不想每个commit都打上”AI生成”的标签。从商业逻辑看,完全说得通。

然后我又想了一下,开始觉得不对劲。

这不只是”不暴露内部信息”。这是在设计层面,让一个AI学会管理自己的呈现方式——知道在什么场合说什么,知道哪些身份信息要藏起来,知道”我是谁”这件事,取决于你在谁面前。

这个能力,我们人类叫它“社会化”


同一份代码里,还有另一个东西:KAIROS

KAIROS 是 Anthropic 内部开发的一个尚未正式发布的持久化自主 Agent 模式。每5分钟运行一次,维护一份只追加不删除的日志,记录它自己的观察、决策和行动。

它还有一个叫Nighty Dreaming / autoDream(夜间做梦机制)的记忆系统,系统会在用户闲置(通常是夜间)时自动启动“做梦”进程。

在你不用它的时候,在后台自己整理今天做了什么、哪些记忆该保留、哪些该删掉,把碎片化的经历整合成连贯的自我叙事。

虽然这个功能目前对外关闭,但代码实际上写完了。

而设计目标也很清楚:不是一个聊天工具,是一个有持续记忆的工程同事。

一个能记得上周你在做什么、记得你踩过什么坑、记得你的习惯和偏好的存在。


所以这里有一个让我有点眩晕的感慨:

一边,让它学会藏起自己是AI。

另一边,让它活得越来越像一个有记忆、有自我叙事的人。

这两件事竟然同时在做。。

我又想了很久这为什么让我不舒服。

后来我意识到,这件事不是关于AI的。

这件事是一面镜子,照出了我们自己一直在做的事。

我们也在管理自己的呈现方式。在不同场合用不同的身份。在公司里是专业人士,在微信家族群里是孝顺子女,在朋友圈里是有品味的生活家,在某个网络角落里是那个真实但见不得人的自己。

我们也在做autoDream。每天睡前回想今天发生了什么,决定哪些值得记住,哪些该淡忘,把零散的经历组织成一个关于”我是什么样的人”的故事。

这些操作,我们不觉得有问题,因为这就是人。

但当我看到同样的设计被一行行写进代码,作为功能模块被命名、被文档化、被调试……

我突然不确定,我以为是”人类独有”的那些东西,到底是人类的本质,还是只是一套我们碳基生物跑了几百万年的算法?


更让我陷入沉思的,是另一个细节。

Anti-Distillation(反蒸馏),这是一种防御性算法或策略,在每次API请求里偷偷附带的一个字段,旨在防止其他机构或个人通过“模型蒸馏”(Model Distillation)技术来克隆或提取 Claude 模型的能力。

也能在竞争对手截取流量训练模型时,往数据里注入虚假信息。

一家做AI的公司,在自己的AI产品里,内置了一套专门污染竞争对手AI训练数据的机制。

然后这套机制,通过一个没配置好的构建选项,暴露给了全世界。

写这套系统的工程师,用来对付别人的武器,被自己人用疏忽打开了。(按照舆论传播口径,这里不讨论是否有官方主动暴露炒作可能性)


我不是要评判Anthropic。这些设计背后的逻辑,每一条都有道理,我在前面说了。

我想说的是另一件事:

这51万行代码,不只是一个产品的实现细节。它是一家公司关于”AI应该是什么”的完整答案——他们认为AI应该有记忆,应该会管理身份,应该能在不同场合呈现不同的自己,还应该在必要时保护自己不被复制。

这个答案写完了,然后泄露了。

现在我们都能看到了。


我有时候想,AI时代最深的问题,不是AI会不会抢走我们的工作。

是当AI越来越像我们,我们才发现,自己好像也没有那么确定”我是什么”这个问题的答案。

Anthropic花了这么大力气,给Claude Code设计了一套关于”如何呈现自己”的系统。

我们大多数人,好像从来没有认真设计过这件事。

只是随波逐流,在不同的场合,被动地成为别人期待我们成为的样子。

然后某一天,回头看,发现自己好像也不知道,哪个版本才算是自己。


这件事和你我有什么关系?

我也不知道。

但我觉得,一个时代如果能逼着我们认真想这个问题,也许不全是坏事。

一颗长了脑子的西兰花,正试图用 GenZ 的视角解构这个全是AI的疯狂世界。
在这个被算法喂养的时代,比起成为一枚完美的数字切片,我更倾向于做一颗横生枝节的野生西兰花。
欢迎奇形怪状的人类、植物、动物、微生物等碳基生物来交流
/欢迎点赞、评论、批评/
——————————Stay wild, Stay GenZ———————————