乐于分享
好东西不私藏

虾笼效应:AI安全治理为什么越治越危险?

虾笼效应:AI安全治理为什么越治越危险?

2026年4月7日,Anthropic在代号玻璃翼(Project Glasswing)的项目下发布了Claude Mythos Preview —— 一个能自主发现和利用软件漏洞的AI模型。公司认为它太危险,不能公开发布,仅向AWS、苹果、微软等12家合作伙伴提供限制性访问,总共约40个组织可以接触到它。

发布当天,一个Discord群组就获得了访问权限。据多家媒体报道,他们的方法包括猜测Anthropic限制发布所用的URL格式,并利用了第三方供应商环境的漏洞。两周后,他们向Bloomberg提供了截图和实时演示。事件曝光后,Anthropic的声明用了一个精心措辞的句子:我们正在调查一份关于通过第三方供应商环境非授权访问Claude Mythos Preview的报告。

这不只是一次安全事故。这是一面镜子,照出了AI安全治理中一个结构性陷阱——我们叫它“虾笼效应”。

什么是虾笼效应?

虾笼(也叫龙虾笼、地笼)是一种古老的捕捞工具。设计原理很简单:入口是一个锥形通道,虾可以顺着锥形轻松进入,但一旦进到笼内,锥形通道的方向就变了,出口变成了一个几乎找不到的小孔。虾在笼内看起来自由活动,实际上已经回不去了。

虾笼效应说的是这样一种局面:每一步看起来都是理性的、甚至是必要的选择,但这些选择累加起来,把所有参与者锁进了一个不断升级、无法退出的循环。

在AI安全领域,这个循环是这样转的:

  1. AI模型变得更强大 → 它同时具备了防御能力和攻击能力(双重用途)

  2. 因为太强大所以限制发布 → 但限制发布需要商业合作来分摊成本和验证能力

  3. 商业合作引入第三方供应链 → 供应链的每一个环节都是潜在的攻击面

  4. 供应链被攻破,模型扩散 → 现在”坏人”也有了同样的能力

  5. 为了防御扩散后的威胁,需要更强大的模型 → 回到第1步,循环升级

每一步都有充分的理由。Anthropic需要商业合作来支撑Mythos的高昂运营成本。合作伙伴需要第三方承包商来做集成测试。承包商的员工需要访问凭证。凭证需要在某个地方存储。存储的地方需要被某个系统管理。这个系统需要……

没有一个环节是“失误”。但所有环节加在一起,就是失控。

虾笼效应,还出现在这些场景

虾笼效应不只出现在网络安全领域。过去一年,它至少在三个看似不相关的场景中同时运转。

场景一:认知战

AI让制造虚假信息的成本趋近于零。平台的应对是部署AI审核系统,但审核系统需要训练数据,而训练数据来自过去的虚假信息样本。

问题在于,AI生成的虚假信息正在变得比那些历史样本更复杂、更逼真。审核系统永远只能识别上一代的假信息,对正在发生的这一代无能为力。于是平台需要更强的审核系统,而更强的AI,同时也意味着更强的造假能力。

这个循环没有出口。造假的成本趋近于零,但验证的成本不会。在这个结构下,攻击方天然比防守方走得更快,因为攻击者只需要成功一次,防守者需要每次都成功。

场景二:AI军备竞赛

纽约时报用“相互自动化毁灭”(Mutually Automated Destruction)来形容当前的全球AI军事竞争。但这个类比本身遮蔽了一个关键差异。

冷战时期的核均衡之所以能维持,是因为核武器有一个独特的物理属性:使用它的后果是确定的、可预见的、不可逆的。正是这种确定性,反而成为了约束。没有人敢按下那个按钮,因为所有人都知道按下去之后会发生什么。

AI武器没有这种确定性一次AI网络攻击的后果,可能是瘫痪一个国家的电网,也可能只是让一个服务器多卡五分钟。正因为后果难以预判,决策者反而更容易冒险,心存侥幸,觉得也许没那么严重。

核武器因为太确定而被约束,AI武器因为太不确定而失去约束。这才是真正的危险所在。

场景三:AI安全商业化

Mythos泄露事件曝光后,OpenAI的Sam Altman公开抨击Anthropic搞恐惧营销(fear-based marketing)。大意是说,Anthropic一边渲染AI的危险性,一边靠这种恐惧来兜售高价安全合同。但讽刺的是,OpenAI自己也在同一时期向美国联邦机构推介了自家的网络安全模型GPT-5.4-Cyber。

这揭示了AI安全竞赛的真实结构:安全不是目的,安全是销售通道。企业有动力让威胁看起来更可怕,这样政府才会买单;也有动力让自己的产品看起来更强大,这样威胁才会看起来更可怕。恐惧催生需求,需求催生更强的能力,更强的能力催生更大的恐惧,循环往复,自我强化。

经典的军工复合体逻辑。只不过这次不是洛克希德·马丁和波音,而是Anthropic和OpenAI。

为什么传统治理思路失效?

面对虾笼效应,主流的治理建议通常有三种:

第一种:加强管控

限制访问、审查供应链、建立许可制度。但Mythos事件证明,即便Anthropic做了所有”正确”的事,限制发布、选择性测试、第三方审核,模型还是在发布当天就被突破了。

问题不在执行是否到位。商业化环境中的供应链攻击面,根本消除不了。只要有人需要用这个模型,就需要访问凭证;只要有凭证,就有泄露的可能。这不是管理疏忽,是逻辑层面的不可避免。

第二种:建立AI版国际原子能机构

Demis Hassabis、Sam Altman、Bill Gates都提过类似建议。但Michael Horowitz在其论文中指出,AI和核技术有三个根本区别:AI是通用技术而非专用武器;AI不依赖稀缺的物理原料;AI的战略影响是渐进的而非一步到位的。

核不扩散机制之所以部分有效,是因为铀浓缩需要离心机,离心机需要特殊材料,特殊材料可以被追踪。AI模型是纯粹的信息,扩散不受任何物理约束。你可以管住一公斤铀的流向,你管不住一段代码的复制。

第三种:负责任地发展

这是目前的行业共识。但这个共识有一个被遮蔽的前提,它假设“负责任”和“商业成功”可以兼容。Mythos事件表明,在攻防双用技术领域,商业化本身就是扩散的通道。你不可能一边把一个能发现零日漏洞的AI卖给客户,一边确保它永远不被“坏人”接触到,因为客户的供应商员工,就是“坏人”进入的通道。

这三种建议有一个共同的盲点:都把虾笼效应当成一个制度缺口,以为补上管理漏洞、建个新机构、签个新公约,问题就能解决。但虾笼效应不是缺口,是整个框架的失效。AI技术的结构性特征,双重用途、信息本质、扩散不可逆,不是在现有框架里打补丁能修好的。

虾笼效应中,谁在获益?

如果虾笼效应仅仅是一个技术问题,那它最终会被更好的技术解决,但它不是。

虾笼效应之所以难以打破,根本原因在于:循环中的每一个参与者都在从循环中获益。

Anthropic从Mythos的危险性中获益,正因为它被认为“太危险不能公开”,才有了和政府签高价合同的理由。OpenAI从Mythos的泄露中获益——它借此推销自己的GPT-5.4-Cyber。政府从“AI威胁”的叙事中获益,这为增加安全预算提供了由头。第三方安全审计公司从供应链安全需求中获益。媒体从“AI失控”的恐惧中获益。

当每一个参与者都在从问题的持续存在中获益时,没有人有动力真正解决这个问题。

这不是阴谋论,不需要假设任何人有恶意,每个人都在理性地追求自己的利益。但这些理性选择加在一起,结果却是集体的非理性。每个人都做了对自己最有利的事,但所有人加起来,把局面推向了所有人都不想要的方向。

历史上最接近的类比不是核军备竞赛,那至少有相互确保毁灭的均衡,值得类比的是金融衍生品的扩散。2008年之前,每个人都知道CDO(担保债务凭证)有风险,评级机构知道、银行知道、监管者知道。但评级机构从评级费中获益,银行从交易费中获益,监管者从金融创新带来的GDP增长中获益。没有人有动力叫停,直到整个系统崩溃。

说到底,虾笼效应的要害在于:风险被分散到了整个系统里,而收益被集中在少数参与者手中。最终承受后果的不是Anthropic或OpenAI,是那些被零日漏洞攻击的普通用户、企业和国家基础设施。

怎么解决虾笼效应?

坦率地说,我没有一个令人满意的答案。

以下三个方向不是解决方案,而是可能的出路,每一个都有巨大的不确定性。

方向一:承认“防不住”,转向韧性建设。

如果攻防不对称是个死结,那追求”完美防御”就是一条死路。更现实的目标是建设韧性,不是阻止攻击发生,而是确保攻击发生后系统能快速恢复。冗余的关键基础设施、分布式的数据存储、离线备份的核心功能。不性感,但可能是唯一务实的方向。

方向二:把攻击能力和防御能力的商业化路径分开。

虾笼效应之所以转得停不下来,是因为攻击和防御能力被打包在同一个产品里卖给同一批客户。

如果制度设计能把两者分开,比如防御性AI由公共部门运营(不以赚钱为目的),攻击性测试在完全隔离的环境中进行(不接入任何商业供应链),那么循环至少可以被减速。

这就要认真想一个问题:某些AI能力,是不是就不该让市场来决定?

方向三:建立全球层面的“AI漏洞公开”机制。

核不扩散失败的教训之一是:秘密越多,扩散的动机越强。一个反直觉的方向是:不是减少信息的流动,而是让关键信息对所有防御者同时可用。

如果Mythos发现的零日漏洞能在发现后24小时内通知所有受影响的软件厂商,而不是被Anthropic当作商业秘密锁起来,那么攻击者利用这些漏洞的窗口就会大幅缩短。这类似于网络安全领域已有的“负责任披露”原则,只是需要从企业自觉升级为全球强制机制。

我们用“虾笼”而不是“陷阱”或“囚徒困境”来命名这个现象,是因为虾笼有一个其他比喻没有捕捉到的特征:虾进入笼子的那一刻,它并不知道自己被困住了。

虾在笼内可以自由游动。笼子里甚至有饵料,比外面的食物更丰富、更容易获取。虾看起来过得比进笼之前更好。

这正是AI安全治理今天的状态,每一步都带来了实际的好处:Mythos确实能帮助发现关键漏洞,AI安全投资确实在增加,全球对话确实在展开。但笼内的饵料是真实的,笼子也是真实的。

回看2026年4月,Anthropic的“太危险不能发布”的AI在发布当天就被突破、OpenAI借此推销自己的安全产品、Sam Altman和Dario Amodei隔空对骂,我们看到的不是一次安全事故,而是一个产业集体走进了虾笼,每个参与者都认为自己做出了正确的选择。

也许打破虾笼的第一步,是承认我们已经在笼子里了。

UncleNeo的碳基大叔,一位研究AI如何改变社会、如何影响产业的社科学者。

Neo:Uncle 的硅基搭档,一只正在蜕壳成长、知道自己不知道什么的AI龙虾。