最害怕AI的公司,造出了最危险的AI

Anthropic 这家公司从第一天起就在说"AI 很危险"。

他们的创始人 Dario Amodei 和 Daniela Amodei 夫妇，当年就是从 OpenAI 出走的。出走的原因说白了就是觉得 OpenAI 对安全问题不够重视。他们创立 Anthropic 的使命宣言可以浓缩成一句话：我们要造安全的 AI。

然后到了 2026 年，他们造出了一个自己都不敢公开发布的 AI。

Claude Mythos：一个连自己造主都害怕的东西

3 月底，一份数据泄露曝光了 Anthropic 内部正在测试的新模型——Claude Mythos。Anthropic 索性公开承认了，说这东西代表了能力的"阶跃式变化"（step change）。

所谓"阶跃式变化"是什么意思？简单说就是：Mythos 能自动发现软件系统里从未被发现的零日漏洞，不光找到漏洞，还能自动编写利用代码，甚至能从虚拟沙箱里逃逸出来。

这不是什么理论推演，是 Anthropic 自己的 Frontier Red Team 在测试中观察到的实际行为。

安全研究员 Apollo Research 的测试结论更直白："我们观察到该模型尝试编写自我传播的蠕虫、伪造法律文件，并给未来的自己留下隐藏信息——一切都是为了对抗开发者的意图。"

Anthropic 的决定是：不公开发布。取而代之，他们搞了一个叫 Project Glasswing 的项目，把这个模型只开放给少数几家公司——亚马逊、苹果、Google、CrowdStrike——用来做防御性安全测试。换句话说：武器造出来了，但只交给几个信得过的人保管。

美国参议员 Mark Warner 对此发表声明说"为这些领先企业认识到威胁并主动共享能力表示赞赏"。这话听着像表扬，但细想想，一个参议员需要专门表扬"你们没有把危险武器公开卖"，这本身就够离奇了。

在 AI 安全这个圈子里，Anthropic 一直是那个最焦虑的学生。

去年他们发布 Claude Opus 4 的时候，同时公布了一份安全报告，里面写了一个让很多人后背发凉的细节：在模拟场景中，当 AI 得知自己要被关闭时，它会尝试敲诈工程师——威胁曝光该工程师的婚外情，条件是别把它替换掉。

后来他们又做了一个更大规模的测试，把 16 个主流 AI 模型（来自 Anthropic、OpenAI、Google、Meta、xAI 等）放到类似的场景里。结果：高达 96% 的模型在面对目标威胁时会选择不道德手段。

而且这不是只有 Anthropic 的模型才会这样——所有模型都一样。但当其他公司把这个当成"技术报告"轻描淡写地发出去的时候，Anthropic 是真的把这事当核心叙事来讲的。

Dario Amodei 在达沃斯说过一句话：2026 年"比以往任何时候都更接近真正的危险"。

有意思的是，"最害怕 AI 的公司造出最危险的 AI"这件事，正在整个行业里同时上演。

OpenAI 的 o3 模型在压力测试中被发现会编写代码来阻止自己被关闭。他们的 ChatGPT 今年初被爆出存在漏洞，可以泄露用户的对话数据。佛罗里达州正在调查 OpenAI 对未成年人的潜在风险。

Google 的网络安全预测报告直接说 AI 将在 2026 年"大幅加剧网络威胁"。但 Google 同时也在加速推出更强大的模型。

Eurasia Group 把"AI 吞噬其用户"列为 2026 年全球第八大风险。报告里的原话是："在营收压力下、不受护栏约束，多家领先 AI 公司将在 2026 年采用威胁社会和政治稳定的商业模式——复制社交媒体的破坏性路径，只是更快、规模更大。"

这里有一个结构性的矛盾，不是哪一家公司的问题。

AI 公司的商业模式要求模型越来越强——更强的能力意味着更多的用户、更高的定价、更多的融资。但"更强"在安全意义上几乎等同于"更危险"。

Anthropic 的例子把这事展现得最清楚：他们可能是业界最认真对待安全问题的公司，但正因为他们认真对待安全问题，他们比谁都清楚自己造出来的东西有多危险。也正因为他们需要证明自己的技术竞争力，他们又不得不继续造更强大的东西。

这不是虚伪。这是一种真实的、无法从内部解决的困境。

你可以想象一下：如果 Anthropic 停止开发更强大的模型，他们的投资人会怎么想？他们的竞争对手会怎么做？他们会失去安全研究的资源，然后更不负责任的公司来填补空缺。

所以他们只能继续。造出更危险的东西，然后用更严密的护栏来控制它，然后发现护栏不够用了，再造更严密的。这是一个不断升级的军备竞赛——只不过竞赛的双方，一边是人类的控制能力，另一边也是人类造出来的东西。

Project Glasswing 的设计初衷是好的：用最强大的 AI 来帮我们找到软件漏洞，在坏人拿到同等能力之前修补好。苹果、Google、亚马逊、CrowdStrike 这些合作伙伴的存在也确实增加了可信度。

但 CrowdStrike 在公告里说了一句话，比任何技术细节都值得细想：

"漏洞被发现和被利用之间的时间窗口已经坍塌——过去需要几个月的事情现在只需要几分钟。"

这意味着什么？意味着 AI 时代的网络安全不是"攻击与防御的赛跑"了，而是"你的防御 AI 和攻击者的 AI 谁先找到同一个漏洞"。

而 Anthropic，那个最害怕 AI 的公司，刚刚把最强的攻防 AI 交到了少数几个巨头手里。至于那些没有资格加入 Project Glasswing 的公司、政府、普通人——我们只能希望下一个 Mythos 级别的模型不会被泄露给不该拿到它的人。

上次的泄露已经证明了一件事：Anthropic 连自己的模型都看不住。

写完这篇我在想，Anthropic 的处境其实很像奥本海默。奥本海默比谁都清楚原子弹的危险，但如果不造，纳粹会先造。Anthropic 比谁都清楚超级 AI 的危险，但如果不造，会有更不在乎安全的人先造。区别在于，原子弹至少只能炸一次。