那家最爱讲安全的AI公司,因为太诚实,被政府关了

上周五下午我刷到一条新闻,愣了几秒。
Anthropic 在自己官网挂了一则声明,标题写得特别克制:「关于美国政府要求暂停 Fable 5 和 Mythos 5 访问的声明」。翻译成人话就是:它最强的两个模型,被政府一纸出口管制指令,按下了暂停键。
你要知道 Anthropic 是谁。这是整个行业里最把「安全」挂在嘴边的一家公司。别人发模型比谁更聪明、谁跑分更高,它发模型先讲一堆「我们做了多少红队测试、对齐了多少价值观、防住了多少越狱」。它的人设就是 AI 圈里那个最较真、最爱给自己挑毛病的优等生。
结果这次,把它撂倒的,恰恰是它的诚实。
导火索,是它自己交上去的一份报告
几个小时后,美媒 WSJ 补了更劲爆的细节:亚马逊 CEO 和美国官员的一次会谈,直接触发了这场整治。而引信,是 Anthropic 自己提交的一份安全报告,里面提到了一个「狭窄的潜在越狱发现」。
我反复念了几遍这句话,越念越觉得荒诞。
什么叫「狭窄的潜在越狱发现」?说白了,就是 Anthropic 自查的时候发现,模型在某个很窄的角落里,可能被人绕过防线干点坏事。这种东西,但凡是个复杂系统都有,飞机有、银行系统有、你手机里的 App 也有。负责任的做法,就是发现了、记下来、报上去、然后去修。
Anthropic 干的就是这件「正确的事」。它没藏着,主动写进报告交了上去。
然后它就被关了。
TechCrunch 的标题特别扎心:「Anthropic 的安全警告,可能适得其反——政府拔掉了它最强大 AI 的插头。」Anthropic 自己在声明里也忍不住怼了一句:仅凭一个狭窄的潜在越狱发现,就召回一个已经部署给数亿用户的商业模型,不合理。
我读到这儿,脑子里冒出一个特别不舒服的画面。
这就像你去体检,说了实话,然后被隔离了
你去医院做体检,医生问你最近身体怎么样。你是个老实人,想了想说:「我偶尔有点心慌,不知道要不要紧。」
正常剧本是:医生给你做个心电图,没事就让你回家,有事就给你开药。
Anthropic 这次遇到的剧本是:医生听完,二话不说把你拖进隔离病房,注销你的就诊卡,顺便通知你单位你病了。
那旁边那个明明也心慌、但啥都没说的人呢?该上班上班,该开会开会,一点事没有。
你说,下次再有人体检,谁还敢说实话?
这才是这件事真正让我后背发凉的地方。它惩罚的不是「危险」,它惩罚的是「承认」。模型有没有那个越狱漏洞,在它报告之前就客观存在了;它报不报,漏洞都在那儿。区别只在于:报了的,被处决了;没报的,活得好好的。
我们一直搞反了一件事
这几年所有人都在喊一句话:AI 公司要透明,要负责任,要把风险摊在桌面上给大家看。
听起来特别对。我以前也这么觉得。
可这次的事让我意识到,我们一直默认了一个根本不成立的前提:我们以为透明会被奖励,至少不会被惩罚。
现实是反过来的。在一个「发现风险就可能被一刀切」的环境里,透明是要付出代价的,而且代价可能是公司的命。你越诚实,你交上去的「证据」就越多,别人想动你的时候,弹药就越足。
经济学里有个特别朴素的道理:你想要什么,就奖励什么;你惩罚什么,就会得到更少的什么。
如果一个制度,让最诚实的那个先死,那它最后筛选出来的,绝不会是更安全的公司,而是更会闭嘴的公司。
真正可怕的不是这次召回,是「下一次」
我不太关心 Anthropic 这次到底冤不冤,那是它和监管部门之间的事。我更在意的是,这件事会给所有还在桌上的玩家,上一堂什么样的课。
这堂课的名字叫:战略性沉默。
以后再有公司内部发现一个「狭窄的潜在越狱」,法务和公关大概率会先开个会。会上有人会说:「上次 Anthropic 就是这么被搞的。我们这个漏洞很窄,影响很小,要不……先内部修了,别写进对外报告?」
你猜大多数公司会怎么选。
巧的是,就在 Anthropic 被召回的同一周,OpenAI 也被多州总检察长联合调查了。Bloomberg 还爆出 Anthropic 正在秘密申请上市,估值九千六百五十亿美元,快一万亿了。一边是估值冲上天,一边是监管的铡刀同时落向两大头部。这种时候,谁还敢主动把自己的软肋写进公开文件?
于是最吊诡的结局出现了:我们本来想用「透明」换「更安全」,最后却用「惩罚透明」逼出了「集体沉默」。风险一个都没少,只是从写在报告里的明账,变成了藏在抽屉里的暗账。
明账好歹还能修。暗账会一直滚,滚到某一天集体爆掉。
那到底该怎么办
我不想把这篇写成一个只会喊「监管不好」的牢骚。监管当然要有,AI 这东西真出事是要命的。
我想说的是另一层:一套好的安全制度,最起码得让诚实的人活得下去。
医院为什么敢让你说实话?因为你说了心慌,最坏结果是做个检查,不是被注销账户。坐飞机出了险情,机长上报为什么不怕?因为航空业有一套「自愿报告免责」的机制:你主动报了过失,只要不是故意,往往能减免追责。正是这套机制,让无数差点酿成事故的隐患,被提前摆上了台面。
整个民航的安全,不是靠把犯错的人都枪毙建起来的,恰恰是靠保护那些「敢承认」的人建起来的。
AI 行业现在缺的就是这套东西。我们有一堆喊着要透明的口号,却没有一个让透明者不至于送命的安全垫。结果就是,最该被鼓励的行为,成了最危险的行为。
所以下次,你再看到哪家 AI 公司发了一份诚恳的安全报告,主动承认自己模型有这样那样的问题,先别急着骂它「居然有这种漏洞」。
你该想到的是:在今天这个环境里,它愿意把这些话说出来,本身就是一种冒险。它不是在炫耀透明,它是在赌——赌监管者不会因为它的诚实,直接把它掐死。
而我们真正该去改的,是这场赌局本身。让说真话的人,不用赌命。
2026.06.14 | 念禹的乌托邦
夜雨聆风