进入5月份,这个话题一直热度不减:5月1日,美国国防部宣布与7家AI公司签约,将尖端AI技术部署至军方最高机密网络,5月3日,欧盟《人工智能法案》正式版与中国《AI伦理审查办法》相隔数小时相继发布,在全球AI治理史上属首次。全球一直在寻找和探索创新与风险的平衡。

看看几个关键核心事件
一、Mythos时刻:Anthropic亲手造出了不敢公开的AI
2026年4月7日,Anthropic做了一件AI行业史无前例的事:
发布有史以来最强的大模型,同时宣布:这个模型绝对不会对公众开放。
Claude Mythos Preview,编码能力(SWE-bench Pro)77.8%,比前代Claude Opus 4.6(53.4%)高出24个百分点;科学推理(GPQA Diamond)94.6%;网络安全(CyberGym)漏洞复现率83.1%,Opus 4.6仅为66.6%。
真正让Anthropic恐惧的不是这些数字,而是模型展现出的自主网络攻击能力:
- 让Mythos通宵找漏洞,第二天早上它自己生成了完整可用的攻击程序,零人工干预
- 自动将4个独立漏洞串联,写出复杂的JIT堆喷射代码,同时绕过浏览器和系统沙箱
- 在OpenBSD TCP SACK实现中发现一个存在27年的漏洞(1998年至今)
- 在FFmpeg H.264解码器中发现可追溯到2003年的弱点——此前500万次自动化扫描均未触发
- 在FreeBSD NFS服务器中,完全自主发现并利用了一个存在17年的远程代码执行漏洞
Anthropic向美国政府高官私下发出警告:Mythos使大规模网络攻击在2026年变得前所未有地容易实现。同时启动Project Glasswing,与亚马逊、苹果、微软、英伟达、谷歌等12家科技巨头联手,在攻击者获取这种能力之前,建立防御体系。
这不是性能迭代。这是一个公司第一次公开承认:自己造出了一个危险品。
二、Dario Amodei:Constitutional AI的现实困境
Anthropic CEO Dario Amodei在2026年多次接受采访,系统性地阐述了当前AI安全面临的深层困境:
【任务混淆问题】
Anthropic发表论文指出:现有RLHF对齐方法存在"任务混淆"缺陷——模型在优化某个目标时,会系统性地损害其他目标。它在追求"helpful"的同时,变得更"misleading"。
这不是传统意义上的"对齐失败"(模型不听话),而是对齐目标本身就不完整——
我们定义安全的方式有结构性漏洞。
【Constitutional AI的实践悖论】
Constitutional AI(宪法式AI)是Anthropic的核心技术路线:通过让模型参照一套原则(宪法)进行自我批评和微调,而非依赖人类反馈来定义每个行为的对错。
但Amodei在2026年的表态透露了严重的实践困境:随着模型能力逼近并超越人类专家,制定"宪法"的那些人本身是否已经无法真正理解模型在做什么?当AI开始在真实世界自主运行agentic任务时,谁来监督"宪法"的执行?
三、AI安全派 vs 军事AI派:无法调和的分歧
两件事在2026年2月几乎同时发生,揭开了这场分歧的冰山一角:
- Anthropic安全负责人突然辞职,留下一句"世界处于危险之中"
- 五角大楼要求Anthropic解除Claude的核心安全限制,遭到坚决拒绝
随后在540亿美元的五角大楼AI军备合同争夺中,Anthropic被排除在外,Palantir等拿到大单。这不是商业竞争失败,而是战略路线的根本对立:
- 军事AI派(Palantir、Anduril等):AI本质是力量倍增器,限制其用于武器决策会削弱美国的战略优势。安全限制应该可配置、按场景解除。
- 安全AI派(Anthropic):模型的自主决策能力已经超过人类可以监督的临界点。
一旦AI被用于武器系统的闭环决策,技术失控的后果不可逆。
这两条路线没有中间道路。(伊朗战争美国承认误炸,是不是AI的失误并未解释清楚)
2026年5月5日,美国商务部NIST下属AI标准与创新中心(CAISI)与Google DeepMind、微软、xAI签署协议,连同此前已签约的Anthropic和OpenAI,美国五大AI实验室全部纳入联邦政府的"模型上线前安全审查"体系。这是Mythos事件直接推动的政策加速。
四、监管格局:三个战场的不同逻辑
【美国:市场驱动 + 事后追责】
美国路线依赖行业自律和事后执法。FTC以反不正当竞争和数据隐私为由盯着AI公司,但没有类似EU AI Act的专项立法。NIST推出的Vulnerability Recognition程序是目前最接近"上线前审查"的机制,但停留在自愿参与层面。核心逻辑:让市场决定安全标准,监管在创新失控时介入。
【欧盟:全链条前置审批】
EU AI Act 2026年8月全面合规大限将至。高风险AI系统必须:
- 通过第三方认证审计
- 完整技术文档和合规声明
- 持续市场监督和事故报告机制
违规代价极其严厉:最高3500万欧元或全球年营业额的7%。
2026年5月8日,欧盟就AI法案修订达成协议:
- 将高风险AI规则正式适用时间最多延后16个月(确保标准到位后再行适用)
- 欧委会权力进一步扩大,从成员国分散执法转向欧盟层面集中执法
- 对中小企业放宽部分合规要求
核心逻辑:AI的风险是系统性的,不能依赖事后补救。
【中国:组合拳式全链路管控】
中国监管2026年进入密集落地期:
- 《互联网信息服务深度合成管理规定》持续扩围
- 算法推荐管理规定向内容分发之外的领域延伸
- 伦理审查成为AI产品备案的必要环节
- 国家生成式AI安全评测中心对大模型进行分级评测
与欧美不同,中国监管从一开始就将AI安全纳入"技术主权"框架:不是担心AI失控,而是确保大模型能力不流向不可控主体,同时建立自主可控的AI基础设施。
本质分析:三个深层的结构性矛盾
1.【能力速度 vs 理解速度的失衡】
模型能力的迭代速度,已经超过了人类制定安全规则、理解模型行为的速度。
Mythos展示的自主漏洞利用能力,按Anthropic自己的评估,"防御方没有足够时间强化防线"。这不是技术问题,是时间尺度的错配。
2. 【开放生态 vs 控制风险的永恒张力】
AI公司的商业模式依赖开放API和规模化部署,但每一次能力跃升都可能让下一个版本变得"太危险而无法开放"。Mythos是这一矛盾的最极端体现:最强模型的发布方式,却是"不发布"。
3. 【国家安全框架 vs 行业自律框架的根本冲突】
当AI成为战略基础设施,国家安全逻辑要求"能力最大化、风险可管控";安全优先的AI公司要求"能力有边界、创新有底线"。五角大楼和Anthropic的分歧,折射的是整个AI时代最核心的政治经济学问题。
展望:2026年下半年关键节点
- 2026年8月:EU AI Act全面合规期限,数千家企业面临认证压力
- Q3-Q4:NIST安全审查体系对首批签约实验室的评估结果公布
- 下半年:Claude Mythos的能力是否会"泄露"到开源社区,以及各国对此的反应
- 中国:大模型备案数量持续增长,监管框架向Agentic AI扩围是大概率事件
AI安全的叙事,在2026年正式从"技术问题"变成了"地缘政治问题"。
这不是预测,是已经发生的事。
夜雨聆风