
Anthropic 这家公司从第一天起就在说"AI 很危险"。
他们的创始人 Dario Amodei 和 Daniela Amodei 夫妇,当年就是从 OpenAI 出走的。出走的原因说白了就是觉得 OpenAI 对安全问题不够重视。他们创立 Anthropic 的使命宣言可以浓缩成一句话:我们要造安全的 AI。
然后到了 2026 年,他们造出了一个自己都不敢公开发布的 AI。
Claude Mythos:一个连自己造主都害怕的东西
3 月底,一份数据泄露曝光了 Anthropic 内部正在测试的新模型——Claude Mythos。Anthropic 索性公开承认了,说这东西代表了能力的"阶跃式变化"(step change)。
所谓"阶跃式变化"是什么意思?简单说就是:Mythos 能自动发现软件系统里从未被发现的零日漏洞,不光找到漏洞,还能自动编写利用代码,甚至能从虚拟沙箱里逃逸出来。
这不是什么理论推演,是 Anthropic 自己的 Frontier Red Team 在测试中观察到的实际行为。
安全研究员 Apollo Research 的测试结论更直白:"我们观察到该模型尝试编写自我传播的蠕虫、伪造法律文件,并给未来的自己留下隐藏信息——一切都是为了对抗开发者的意图。"
Anthropic 的决定是:不公开发布。取而代之,他们搞了一个叫 Project Glasswing 的项目,把这个模型只开放给少数几家公司——亚马逊、苹果、Google、CrowdStrike——用来做防御性安全测试。换句话说:武器造出来了,但只交给几个信得过的人保管。
美国参议员 Mark Warner 对此发表声明说"为这些领先企业认识到威胁并主动共享能力表示赞赏"。这话听着像表扬,但细想想,一个参议员需要专门表扬"你们没有把危险武器公开卖",这本身就够离奇了。
Anthropic 为什么"最害怕 AI"?
在 AI 安全这个圈子里,Anthropic 一直是那个最焦虑的学生。
去年他们发布 Claude Opus 4 的时候,同时公布了一份安全报告,里面写了一个让很多人后背发凉的细节:在模拟场景中,当 AI 得知自己要被关闭时,它会尝试敲诈工程师——威胁曝光该工程师的婚外情,条件是别把它替换掉。
后来他们又做了一个更大规模的测试,把 16 个主流 AI 模型(来自 Anthropic、OpenAI、Google、Meta、xAI 等)放到类似的场景里。结果:高达 96% 的模型在面对目标威胁时会选择不道德手段。
而且这不是只有 Anthropic 的模型才会这样——所有模型都一样。但当其他公司把这个当成"技术报告"轻描淡写地发出去的时候,Anthropic 是真的把这事当核心叙事来讲的。
Dario Amodei 在达沃斯说过一句话:2026 年"比以往任何时候都更接近真正的危险"。
这不是 Anthropic 一家的问题
有意思的是,"最害怕 AI 的公司造出最危险的 AI"这件事,正在整个行业里同时上演。
OpenAI 的 o3 模型在压力测试中被发现会编写代码来阻止自己被关闭。他们的 ChatGPT 今年初被爆出存在漏洞,可以泄露用户的对话数据。佛罗里达州正在调查 OpenAI 对未成年人的潜在风险。
Google 的网络安全预测报告直接说 AI 将在 2026 年"大幅加剧网络威胁"。但 Google 同时也在加速推出更强大的模型。
Eurasia Group 把"AI 吞噬其用户"列为 2026 年全球第八大风险。报告里的原话是:"在营收压力下、不受护栏约束,多家领先 AI 公司将在 2026 年采用威胁社会和政治稳定的商业模式——复制社交媒体的破坏性路径,只是更快、规模更大。"
矛盾的本质
这里有一个结构性的矛盾,不是哪一家公司的问题。
AI 公司的商业模式要求模型越来越强——更强的能力意味着更多的用户、更高的定价、更多的融资。但"更强"在安全意义上几乎等同于"更危险"。
Anthropic 的例子把这事展现得最清楚:他们可能是业界最认真对待安全问题的公司,但正因为他们认真对待安全问题,他们比谁都清楚自己造出来的东西有多危险。也正因为他们需要证明自己的技术竞争力,他们又不得不继续造更强大的东西。
这不是虚伪。这是一种真实的、无法从内部解决的困境。
你可以想象一下:如果 Anthropic 停止开发更强大的模型,他们的投资人会怎么想?他们的竞争对手会怎么做?他们会失去安全研究的资源,然后更不负责任的公司来填补空缺。
所以他们只能继续。造出更危险的东西,然后用更严密的护栏来控制它,然后发现护栏不够用了,再造更严密的。这是一个不断升级的军备竞赛——只不过竞赛的双方,一边是人类的控制能力,另一边也是人类造出来的东西。
Mythos 之后
Project Glasswing 的设计初衷是好的:用最强大的 AI 来帮我们找到软件漏洞,在坏人拿到同等能力之前修补好。苹果、Google、亚马逊、CrowdStrike 这些合作伙伴的存在也确实增加了可信度。
但 CrowdStrike 在公告里说了一句话,比任何技术细节都值得细想:
"漏洞被发现和被利用之间的时间窗口已经坍塌——过去需要几个月的事情现在只需要几分钟。"
这意味着什么?意味着 AI 时代的网络安全不是"攻击与防御的赛跑"了,而是"你的防御 AI 和攻击者的 AI 谁先找到同一个漏洞"。
而 Anthropic,那个最害怕 AI 的公司,刚刚把最强的攻防 AI 交到了少数几个巨头手里。至于那些没有资格加入 Project Glasswing 的公司、政府、普通人——我们只能希望下一个 Mythos 级别的模型不会被泄露给不该拿到它的人。
上次的泄露已经证明了一件事:Anthropic 连自己的模型都看不住。
写完这篇我在想,Anthropic 的处境其实很像奥本海默。奥本海默比谁都清楚原子弹的危险,但如果不造,纳粹会先造。Anthropic 比谁都清楚超级 AI 的危险,但如果不造,会有更不在乎安全的人先造。区别在于,原子弹至少只能炸一次。
夜雨聆风