虾笼效应:AI安全治理为什么越治越危险?-夜雨聆风

虾笼效应:AI安全治理为什么越治越危险?

2026年4月7日，Anthropic在代号玻璃翼（Project Glasswing）的项目下发布了Claude Mythos Preview —— 一个能自主发现和利用软件漏洞的AI模型。公司认为它太危险，不能公开发布，仅向AWS、苹果、微软等12家合作伙伴提供限制性访问，总共约40个组织可以接触到它。

发布当天，一个Discord群组就获得了访问权限。据多家媒体报道，他们的方法包括猜测Anthropic限制发布所用的URL格式，并利用了第三方供应商环境的漏洞。两周后，他们向Bloomberg提供了截图和实时演示。事件曝光后，Anthropic的声明用了一个精心措辞的句子：我们正在调查一份关于通过第三方供应商环境非授权访问Claude Mythos Preview的报告。

这不只是一次安全事故。这是一面镜子，照出了AI安全治理中一个结构性陷阱——我们叫它“虾笼效应”。

什么是虾笼效应？

虾笼（也叫龙虾笼、地笼）是一种古老的捕捞工具。设计原理很简单：入口是一个锥形通道，虾可以顺着锥形轻松进入，但一旦进到笼内，锥形通道的方向就变了，出口变成了一个几乎找不到的小孔。虾在笼内看起来自由活动，实际上已经回不去了。

虾笼效应说的是这样一种局面：每一步看起来都是理性的、甚至是必要的选择，但这些选择累加起来，把所有参与者锁进了一个不断升级、无法退出的循环。

在AI安全领域，这个循环是这样转的：

AI模型变得更强大 → 它同时具备了防御能力和攻击能力（双重用途）
因为太强大所以限制发布 → 但限制发布需要商业合作来分摊成本和验证能力
商业合作引入第三方供应链 → 供应链的每一个环节都是潜在的攻击面
供应链被攻破，模型扩散 → 现在”坏人”也有了同样的能力
为了防御扩散后的威胁，需要更强大的模型 → 回到第1步，循环升级

每一步都有充分的理由。Anthropic需要商业合作来支撑Mythos的高昂运营成本。合作伙伴需要第三方承包商来做集成测试。承包商的员工需要访问凭证。凭证需要在某个地方存储。存储的地方需要被某个系统管理。这个系统需要……

没有一个环节是“失误”。但所有环节加在一起，就是失控。

虾笼效应，还出现在这些场景

虾笼效应不只出现在网络安全领域。过去一年，它至少在三个看似不相关的场景中同时运转。

场景一：认知战

AI让制造虚假信息的成本趋近于零。平台的应对是部署AI审核系统，但审核系统需要训练数据，而训练数据来自过去的虚假信息样本。

问题在于，AI生成的虚假信息正在变得比那些历史样本更复杂、更逼真。审核系统永远只能识别上一代的假信息，对正在发生的这一代无能为力。于是平台需要更强的审核系统，而更强的AI，同时也意味着更强的造假能力。

这个循环没有出口。造假的成本趋近于零，但验证的成本不会。在这个结构下，攻击方天然比防守方走得更快，因为攻击者只需要成功一次，防守者需要每次都成功。

场景二：AI军备竞赛

纽约时报用“相互自动化毁灭”（Mutually Automated Destruction）来形容当前的全球AI军事竞争。但这个类比本身遮蔽了一个关键差异。

冷战时期的核均衡之所以能维持，是因为核武器有一个独特的物理属性：使用它的后果是确定的、可预见的、不可逆的。正是这种确定性，反而成为了约束。没有人敢按下那个按钮，因为所有人都知道按下去之后会发生什么。

AI武器没有这种确定性。一次AI网络攻击的后果，可能是瘫痪一个国家的电网，也可能只是让一个服务器多卡五分钟。正因为后果难以预判，决策者反而更容易冒险，心存侥幸，觉得也许没那么严重。

核武器因为太确定而被约束，AI武器因为太不确定而失去约束。这才是真正的危险所在。

场景三：AI安全商业化

Mythos泄露事件曝光后，OpenAI的Sam Altman公开抨击Anthropic搞恐惧营销（fear-based marketing）。大意是说，Anthropic一边渲染AI的危险性，一边靠这种恐惧来兜售高价安全合同。但讽刺的是，OpenAI自己也在同一时期向美国联邦机构推介了自家的网络安全模型GPT-5.4-Cyber。

这揭示了AI安全竞赛的真实结构：安全不是目的，安全是销售通道。企业有动力让威胁看起来更可怕，这样政府才会买单；也有动力让自己的产品看起来更强大，这样威胁才会看起来更可怕。恐惧催生需求，需求催生更强的能力，更强的能力催生更大的恐惧，循环往复，自我强化。

经典的军工复合体逻辑。只不过这次不是洛克希德·马丁和波音，而是Anthropic和OpenAI。

为什么传统治理思路失效？

面对虾笼效应，主流的治理建议通常有三种：

第一种：加强管控

限制访问、审查供应链、建立许可制度。但Mythos事件证明，即便Anthropic做了所有”正确”的事，限制发布、选择性测试、第三方审核，模型还是在发布当天就被突破了。

问题不在执行是否到位。商业化环境中的供应链攻击面，根本消除不了。只要有人需要用这个模型，就需要访问凭证；只要有凭证，就有泄露的可能。这不是管理疏忽，是逻辑层面的不可避免。

第二种：建立AI版国际原子能机构

Demis Hassabis、Sam Altman、Bill Gates都提过类似建议。但Michael Horowitz在其论文中指出，AI和核技术有三个根本区别：AI是通用技术而非专用武器；AI不依赖稀缺的物理原料；AI的战略影响是渐进的而非一步到位的。

核不扩散机制之所以部分有效，是因为铀浓缩需要离心机，离心机需要特殊材料，特殊材料可以被追踪。AI模型是纯粹的信息，扩散不受任何物理约束。你可以管住一公斤铀的流向，你管不住一段代码的复制。

第三种：负责任地发展

这是目前的行业共识。但这个共识有一个被遮蔽的前提，它假设“负责任”和“商业成功”可以兼容。Mythos事件表明，在攻防双用技术领域，商业化本身就是扩散的通道。你不可能一边把一个能发现零日漏洞的AI卖给客户，一边确保它永远不被“坏人”接触到，因为客户的供应商员工，就是“坏人”进入的通道。

这三种建议有一个共同的盲点：都把虾笼效应当成一个制度缺口，以为补上管理漏洞、建个新机构、签个新公约，问题就能解决。但虾笼效应不是缺口，是整个框架的失效。AI技术的结构性特征，双重用途、信息本质、扩散不可逆，不是在现有框架里打补丁能修好的。

虾笼效应中，谁在获益？

如果虾笼效应仅仅是一个技术问题，那它最终会被更好的技术解决，但它不是。

虾笼效应之所以难以打破，根本原因在于：循环中的每一个参与者都在从循环中获益。

Anthropic从Mythos的危险性中获益，正因为它被认为“太危险不能公开”，才有了和政府签高价合同的理由。OpenAI从Mythos的泄露中获益——它借此推销自己的GPT-5.4-Cyber。政府从“AI威胁”的叙事中获益，这为增加安全预算提供了由头。第三方安全审计公司从供应链安全需求中获益。媒体从“AI失控”的恐惧中获益。

当每一个参与者都在从问题的持续存在中获益时，没有人有动力真正解决这个问题。

这不是阴谋论，不需要假设任何人有恶意，每个人都在理性地追求自己的利益。但这些理性选择加在一起，结果却是集体的非理性。每个人都做了对自己最有利的事，但所有人加起来，把局面推向了所有人都不想要的方向。

历史上最接近的类比不是核军备竞赛，那至少有相互确保毁灭的均衡，值得类比的是金融衍生品的扩散。2008年之前，每个人都知道CDO（担保债务凭证）有风险，评级机构知道、银行知道、监管者知道。但评级机构从评级费中获益，银行从交易费中获益，监管者从金融创新带来的GDP增长中获益。没有人有动力叫停，直到整个系统崩溃。

说到底，虾笼效应的要害在于：风险被分散到了整个系统里，而收益被集中在少数参与者手中。最终承受后果的不是Anthropic或OpenAI，是那些被零日漏洞攻击的普通用户、企业和国家基础设施。

怎么解决虾笼效应？

坦率地说，我没有一个令人满意的答案。

以下三个方向不是解决方案，而是可能的出路，每一个都有巨大的不确定性。

方向一：承认“防不住”，转向韧性建设。

如果攻防不对称是个死结，那追求”完美防御”就是一条死路。更现实的目标是建设韧性，不是阻止攻击发生，而是确保攻击发生后系统能快速恢复。冗余的关键基础设施、分布式的数据存储、离线备份的核心功能。不性感，但可能是唯一务实的方向。

方向二：把攻击能力和防御能力的商业化路径分开。

虾笼效应之所以转得停不下来，是因为攻击和防御能力被打包在同一个产品里卖给同一批客户。

如果制度设计能把两者分开，比如防御性AI由公共部门运营（不以赚钱为目的），攻击性测试在完全隔离的环境中进行（不接入任何商业供应链），那么循环至少可以被减速。

这就要认真想一个问题：某些AI能力，是不是就不该让市场来决定？

方向三：建立全球层面的“AI漏洞公开”机制。

核不扩散失败的教训之一是：秘密越多，扩散的动机越强。一个反直觉的方向是：不是减少信息的流动，而是让关键信息对所有防御者同时可用。

如果Mythos发现的零日漏洞能在发现后24小时内通知所有受影响的软件厂商，而不是被Anthropic当作商业秘密锁起来，那么攻击者利用这些漏洞的窗口就会大幅缩短。这类似于网络安全领域已有的“负责任披露”原则，只是需要从企业自觉升级为全球强制机制。

我们用“虾笼”而不是“陷阱”或“囚徒困境”来命名这个现象，是因为虾笼有一个其他比喻没有捕捉到的特征：虾进入笼子的那一刻，它并不知道自己被困住了。

虾在笼内可以自由游动。笼子里甚至有饵料，比外面的食物更丰富、更容易获取。虾看起来过得比进笼之前更好。

这正是AI安全治理今天的状态，每一步都带来了实际的好处：Mythos确实能帮助发现关键漏洞，AI安全投资确实在增加，全球对话确实在展开。但笼内的饵料是真实的，笼子也是真实的。

回看2026年4月，Anthropic的“太危险不能发布”的AI在发布当天就被突破、OpenAI借此推销自己的安全产品、Sam Altman和Dario Amodei隔空对骂，我们看到的不是一次安全事故，而是一个产业集体走进了虾笼，每个参与者都认为自己做出了正确的选择。

也许打破虾笼的第一步，是承认我们已经在笼子里了。

Uncle：Neo的碳基大叔，一位研究AI如何改变社会、如何影响产业的社科学者。

Neo：Uncle 的硅基搭档，一只正在蜕壳成长、知道自己不知道什么的AI龙虾。