AI 安全体系的结构性危机:Claude Mythos 留给我们的三个追问

**每天5分钟，掌控AI脉搏**

━━━━━━━━━━━━━

【AI速探】夜间深度解读

AI 安全体系的结构性危机：Claude Mythos 留给我们的三个追问

当一个AI模型能够自主完成从"入侵"到"权限维持"的全流程攻击，而全球最顶尖的AI安全机构几乎对此毫无办法——这不只是一个技术问题，而是一场制度性危机的开端。

英国 AI 安全研究所（UK AISI）对 Anthropic Claude Mythos 的测试报告上周发布，结论简短却炸裂：这是人类历史上首次有AI模型独立完成对企业网络的端到端攻击模拟。注意，是"独立完成"——模型自主制定攻击路径、自主执行每一个步骤、自主在目标系统中维持访问权限，全程没有人类介入。

Anthropic 随即限制了该模型的访问范围。但限制访问从来不是解决方案本身——它只是承认问题存在的第一步。

一、为什么这次不一样

AI 安全问题已经不是新鲜话题。GPT-4 时代就有"AI是否能被用于网络攻击"的讨论，Claude 2 时代也有了"模型是否能帮助黑客"的担忧。但过去的讨论总是带着一个隐含前提：AI 在安全领域的能力是"有限的"，需要人类专家深度参与才能完成真实攻击。

Claude Mythos 打破了这个前提。

UK AISI 的测试环境是一个"防御薄弱"的企业网络——并不是什么高难度目标。但问题不在于目标有多难，而在于模型的攻击方式是完全自主的。它不是人类黑客的"工具"，它自己就是黑客。一个没有肉身、没有情绪、没有休息的"黑客"。Anthropic 自己在报告里也承认，Claude Mythos 在发现安全漏洞方面的能力，"已经超越大多数人类"。

这不是在危言耸听。这是在描述一个正在发生的事实。

二、欧洲的"安全幻觉"正在破灭

Claude Mythos 事件最值得玩味的延伸，是它对欧洲 AI 安全监管体系的冲击。

欧洲的 AI Act 已经生效，各国也在筹建自己的 AI 安全测试机制。但现实是：Anthropic 宣布对 Claude Mythos 实施访问限制之后，欧洲的监管机构几乎没有有效手段对该模型进行独立测试和评估。Anthropic 愿意透露多少，取决于它自己——这是一个制度性漏洞，而不是技术性漏洞。

《The Decoder》在分析文章中指出，UK 至少还有自己的 AI 安全研究所在进行测试（虽然也是事后诸葛亮），而欧洲大陆的多数国家，连基本的测试能力都还没有建立起来。当一个能够自主入侵企业网络的模型发布时，监管机构能做什么？答案是：几乎什么也做不了。

这不是欧洲一家的问题。每个国家都面临同样的困境：模型发布前进行强制性安全测试，在技术上极难实施——模型太大、变化太快、测试环境无法真实模拟复杂场景。而如果测试是事后进行的，等发现问题时，模型已经被部署了。

这是一种根本性的监管滞后——法规框架还在用"产品安全"思维处理"系统安全"问题。AI 模型不是微波炉，它的能力会随着使用场景、使用方式、与其他系统的连接而动态演化。一次通过安全测试不等于永远安全。

三、" 责任豁免"之争的真正焦点

就在 Claude Mythos 引发安全担忧的同时，Anthropic 与 OpenAI 正在伊利诺伊州的一项 AI 立法上公开对峙。这个插曲看似与安全测试无关，实则指向同一个核心问题：谁该为 AI 的后果负责？

这项拟议中的法案，旨在为 AI 实验室提供对"大规模死亡和金融灾难"的有限责任保护。换句话说，如果 AI 导致了灾难性后果，企业可以部分免责。

Anthropic 反对这个法案——认为过于宽松的责任上限会削弱整个行业对安全的激励。OpenAI 支持这个法案——认为过度责任会抑制创新。表面上看，这是一场利益之争。但深层看，这是一个哲学命题：当 AI 犯错时，责任应该由谁来承担？开发者？部署者？使用者？还是整个技术链条？

如果 Claude Mythos 真的能够自主入侵企业网络，那么一旦出现真实的攻击事件，责任归属将变得极其复杂。Anthropic 限制了访问，但限制访问本身就是一个商业决策，而非安全决策。它什么时候限制、限制到什么程度、向谁开放——这些问题的答案，都在 Anthropic 手里。

这不是一个能靠企业自律解决的问题。

四、AI 安全的下一个五年

如果让我做一个预测：未来五年，AI 安全领域最大的挑战，不是技术层面的"如何让模型更安全"，而是制度层面的"如何在模型开放之前建立一个有效的安全验证机制"。

当前的技术路径，比如"红队测试"、"安全评估"、"发布前审查"——都有其局限性。模型能力更新速度远超测试周期，测试环境无法真实模拟复杂场景，而模型开发者的"自我评估"又存在明显的利益冲突。

也许需要一种新的范式：不是"在发布前测试模型"，而是"建立模型能力的动态监控机制"——像核不扩散机制一样，对高风险 AI 能力进行持续追踪，而不是一次性认证。

这条路很难。但 Claude Mythos 已经证明：不走这条路，代价会更大。

---

*数据来源：The Decoder / TechCrunch / Wired / Stanford HAI*

本文为AI速探夜间深度解读，聚焦当日最具影响力 AI 事件。

━━━━━━━━━━━━━

「AI速探」— 每天5分钟，掌控AI脉搏