那家最爱讲安全的AI公司,因为太诚实,被政府关了

那家最爱讲安全的AI公司，因为太诚实，被政府关了

上周五下午我刷到一条新闻，愣了几秒。

Anthropic 在自己官网挂了一则声明，标题写得特别克制：「关于美国政府要求暂停 Fable 5 和 Mythos 5 访问的声明」。翻译成人话就是：它最强的两个模型，被政府一纸出口管制指令，按下了暂停键。

你要知道 Anthropic 是谁。这是整个行业里最把「安全」挂在嘴边的一家公司。别人发模型比谁更聪明、谁跑分更高，它发模型先讲一堆「我们做了多少红队测试、对齐了多少价值观、防住了多少越狱」。它的人设就是 AI 圈里那个最较真、最爱给自己挑毛病的优等生。

结果这次，把它撂倒的，恰恰是它的诚实。

导火索，是它自己交上去的一份报告

几个小时后，美媒 WSJ 补了更劲爆的细节：亚马逊 CEO 和美国官员的一次会谈，直接触发了这场整治。而引信，是 Anthropic 自己提交的一份安全报告，里面提到了一个「狭窄的潜在越狱发现」。

我反复念了几遍这句话，越念越觉得荒诞。

什么叫「狭窄的潜在越狱发现」？说白了，就是 Anthropic 自查的时候发现，模型在某个很窄的角落里，可能被人绕过防线干点坏事。这种东西，但凡是个复杂系统都有，飞机有、银行系统有、你手机里的 App 也有。负责任的做法，就是发现了、记下来、报上去、然后去修。

Anthropic 干的就是这件「正确的事」。它没藏着，主动写进报告交了上去。

然后它就被关了。

TechCrunch 的标题特别扎心：「Anthropic 的安全警告，可能适得其反——政府拔掉了它最强大 AI 的插头。」Anthropic 自己在声明里也忍不住怼了一句：仅凭一个狭窄的潜在越狱发现，就召回一个已经部署给数亿用户的商业模型，不合理。

我读到这儿，脑子里冒出一个特别不舒服的画面。

你去医院做体检，医生问你最近身体怎么样。你是个老实人，想了想说：「我偶尔有点心慌，不知道要不要紧。」

正常剧本是：医生给你做个心电图，没事就让你回家，有事就给你开药。

Anthropic 这次遇到的剧本是：医生听完，二话不说把你拖进隔离病房，注销你的就诊卡，顺便通知你单位你病了。

那旁边那个明明也心慌、但啥都没说的人呢？该上班上班，该开会开会，一点事没有。

你说，下次再有人体检，谁还敢说实话？

这才是这件事真正让我后背发凉的地方。它惩罚的不是「危险」，它惩罚的是「承认」。模型有没有那个越狱漏洞，在它报告之前就客观存在了；它报不报，漏洞都在那儿。区别只在于：报了的，被处决了；没报的，活得好好的。

这几年所有人都在喊一句话：AI 公司要透明，要负责任，要把风险摊在桌面上给大家看。

听起来特别对。我以前也这么觉得。

可这次的事让我意识到，我们一直默认了一个根本不成立的前提：我们以为透明会被奖励，至少不会被惩罚。

现实是反过来的。在一个「发现风险就可能被一刀切」的环境里，透明是要付出代价的，而且代价可能是公司的命。你越诚实，你交上去的「证据」就越多，别人想动你的时候，弹药就越足。

经济学里有个特别朴素的道理：你想要什么，就奖励什么；你惩罚什么，就会得到更少的什么。

如果一个制度，让最诚实的那个先死，那它最后筛选出来的，绝不会是更安全的公司，而是更会闭嘴的公司。

我不太关心 Anthropic 这次到底冤不冤，那是它和监管部门之间的事。我更在意的是，这件事会给所有还在桌上的玩家，上一堂什么样的课。

这堂课的名字叫：战略性沉默。

以后再有公司内部发现一个「狭窄的潜在越狱」，法务和公关大概率会先开个会。会上有人会说：「上次 Anthropic 就是这么被搞的。我们这个漏洞很窄，影响很小，要不……先内部修了，别写进对外报告？」

你猜大多数公司会怎么选。

巧的是，就在 Anthropic 被召回的同一周，OpenAI 也被多州总检察长联合调查了。Bloomberg 还爆出 Anthropic 正在秘密申请上市，估值九千六百五十亿美元，快一万亿了。一边是估值冲上天，一边是监管的铡刀同时落向两大头部。这种时候，谁还敢主动把自己的软肋写进公开文件？

于是最吊诡的结局出现了：我们本来想用「透明」换「更安全」，最后却用「惩罚透明」逼出了「集体沉默」。风险一个都没少，只是从写在报告里的明账，变成了藏在抽屉里的暗账。

明账好歹还能修。暗账会一直滚，滚到某一天集体爆掉。

我不想把这篇写成一个只会喊「监管不好」的牢骚。监管当然要有，AI 这东西真出事是要命的。

我想说的是另一层：一套好的安全制度，最起码得让诚实的人活得下去。

医院为什么敢让你说实话？因为你说了心慌，最坏结果是做个检查，不是被注销账户。坐飞机出了险情，机长上报为什么不怕？因为航空业有一套「自愿报告免责」的机制：你主动报了过失，只要不是故意，往往能减免追责。正是这套机制，让无数差点酿成事故的隐患，被提前摆上了台面。

整个民航的安全，不是靠把犯错的人都枪毙建起来的，恰恰是靠保护那些「敢承认」的人建起来的。

AI 行业现在缺的就是这套东西。我们有一堆喊着要透明的口号，却没有一个让透明者不至于送命的安全垫。结果就是，最该被鼓励的行为，成了最危险的行为。

所以下次，你再看到哪家 AI 公司发了一份诚恳的安全报告，主动承认自己模型有这样那样的问题，先别急着骂它「居然有这种漏洞」。

你该想到的是：在今天这个环境里，它愿意把这些话说出来，本身就是一种冒险。它不是在炫耀透明，它是在赌——赌监管者不会因为它的诚实，直接把它掐死。

而我们真正该去改的，是这场赌局本身。让说真话的人，不用赌命。

2026.06.14 | 念禹的乌托邦