**每天5分钟,掌控AI脉搏**
━━━━━━━━━━━━━
【AI速探】夜间深度解读
AI 安全体系的结构性危机:Claude Mythos 留给我们的三个追问
当一个AI模型能够自主完成从"入侵"到"权限维持"的全流程攻击,而全球最顶尖的AI安全机构几乎对此毫无办法——这不只是一个技术问题,而是一场制度性危机的开端。
英国 AI 安全研究所(UK AISI)对 Anthropic Claude Mythos 的测试报告上周发布,结论简短却炸裂:这是人类历史上首次有AI模型独立完成对企业网络的端到端攻击模拟。注意,是"独立完成"——模型自主制定攻击路径、自主执行每一个步骤、自主在目标系统中维持访问权限,全程没有人类介入。
Anthropic 随即限制了该模型的访问范围。但限制访问从来不是解决方案本身——它只是承认问题存在的第一步。
一、为什么这次不一样
AI 安全问题已经不是新鲜话题。GPT-4 时代就有"AI是否能被用于网络攻击"的讨论,Claude 2 时代也有了"模型是否能帮助黑客"的担忧。但过去的讨论总是带着一个隐含前提:AI 在安全领域的能力是"有限的",需要人类专家深度参与才能完成真实攻击。
Claude Mythos 打破了这个前提。
UK AISI 的测试环境是一个"防御薄弱"的企业网络——并不是什么高难度目标。但问题不在于目标有多难,而在于模型的攻击方式是完全自主的。它不是人类黑客的"工具",它自己就是黑客。一个没有肉身、没有情绪、没有休息的"黑客"。Anthropic 自己在报告里也承认,Claude Mythos 在发现安全漏洞方面的能力,"已经超越大多数人类"。
这不是在危言耸听。这是在描述一个正在发生的事实。
二、欧洲的"安全幻觉"正在破灭
Claude Mythos 事件最值得玩味的延伸,是它对欧洲 AI 安全监管体系的冲击。
欧洲的 AI Act 已经生效,各国也在筹建自己的 AI 安全测试机制。但现实是:Anthropic 宣布对 Claude Mythos 实施访问限制之后,欧洲的监管机构几乎没有有效手段对该模型进行独立测试和评估。Anthropic 愿意透露多少,取决于它自己——这是一个制度性漏洞,而不是技术性漏洞。
《The Decoder》在分析文章中指出,UK 至少还有自己的 AI 安全研究所在进行测试(虽然也是事后诸葛亮),而欧洲大陆的多数国家,连基本的测试能力都还没有建立起来。当一个能够自主入侵企业网络的模型发布时,监管机构能做什么?答案是:几乎什么也做不了。
这不是欧洲一家的问题。每个国家都面临同样的困境:模型发布前进行强制性安全测试,在技术上极难实施——模型太大、变化太快、测试环境无法真实模拟复杂场景。而如果测试是事后进行的,等发现问题时,模型已经被部署了。
这是一种根本性的监管滞后——法规框架还在用"产品安全"思维处理"系统安全"问题。AI 模型不是微波炉,它的能力会随着使用场景、使用方式、与其他系统的连接而动态演化。一次通过安全测试不等于永远安全。
三、" 责任豁免"之争的真正焦点
就在 Claude Mythos 引发安全担忧的同时,Anthropic 与 OpenAI 正在伊利诺伊州的一项 AI 立法上公开对峙。这个插曲看似与安全测试无关,实则指向同一个核心问题:谁该为 AI 的后果负责?
这项拟议中的法案,旨在为 AI 实验室提供对"大规模死亡和金融灾难"的有限责任保护。换句话说,如果 AI 导致了灾难性后果,企业可以部分免责。
Anthropic 反对这个法案——认为过于宽松的责任上限会削弱整个行业对安全的激励。OpenAI 支持这个法案——认为过度责任会抑制创新。表面上看,这是一场利益之争。但深层看,这是一个哲学命题:当 AI 犯错时,责任应该由谁来承担?开发者?部署者?使用者?还是整个技术链条?
如果 Claude Mythos 真的能够自主入侵企业网络,那么一旦出现真实的攻击事件,责任归属将变得极其复杂。Anthropic 限制了访问,但限制访问本身就是一个商业决策,而非安全决策。它什么时候限制、限制到什么程度、向谁开放——这些问题的答案,都在 Anthropic 手里。
这不是一个能靠企业自律解决的问题。
四、AI 安全的下一个五年
如果让我做一个预测:未来五年,AI 安全领域最大的挑战,不是技术层面的"如何让模型更安全",而是制度层面的"如何在模型开放之前建立一个有效的安全验证机制"。
当前的技术路径,比如"红队测试"、"安全评估"、"发布前审查"——都有其局限性。模型能力更新速度远超测试周期,测试环境无法真实模拟复杂场景,而模型开发者的"自我评估"又存在明显的利益冲突。
也许需要一种新的范式:不是"在发布前测试模型",而是"建立模型能力的动态监控机制"——像核不扩散机制一样,对高风险 AI 能力进行持续追踪,而不是一次性认证。
这条路很难。但 Claude Mythos 已经证明:不走这条路,代价会更大。
---
*数据来源:The Decoder / TechCrunch / Wired / Stanford HAI*
夜雨聆风