4.7 个月翻一倍还嫌慢?英国 AI 安全机构最新报告:前沿模型网络攻防能力已冲破评估上限

导读英国 AI 安全机构（AISI）5 月 13 日发布最新评估：前沿模型在受控网络安全测试中可完成的任务长度，翻倍周期从 8 个月压缩到 4.7 个月——Claude Mythos Preview 和 GPT-5.5 甚至远超这条加速曲线。更令人紧张的是，AISI 的评估套件本身正在被模型「打穿」，测试题快不够用了。

8 个月 → 4.7 个月 → ？翻倍在加速，加速也在加速

AISI 有一套窄范围网络安全评估套件（narrow cyber suite），持续追踪前沿模型可以自主完成的网络安全任务长度。衡量方式很直观：以人类安全专家完成相同任务所需的时间为基准。

2025 年 11 月，他们估算这个能力的翻倍周期大约是8 个月。

2026 年 2 月，修正为4.7 个月——几乎腰斩。

然后 Claude Mythos Preview 和 GPT-5.5 来了，直接把这条趋势线甩在了身后。

AISI 在博客原文中写道：

"Claude Mythos Preview and GPT-5.5 have since substantially exceeded both doubling rate trends. It is unclear whether this represents a new, faster trend."

「Claude Mythos Preview 和 GPT-5.5 已经大幅超越了此前两条翻倍速率趋势线。尚不清楚这代表一个更快的新趋势，还是一次偶发跳变。」

AISI 用的词是substantially exceeded——大幅超越。不确定这是新常态还是偶发。但无论归类为哪种，数据走向本身已经足够惊人。

▲ AISI 官方博客：《How fast is autonomous AI cyber capability advancing?》，2026 年 5 月 13 日发布

模拟企业网络靶场：Mythos Preview 十次完成六次

AISI 的评估不只有短任务跑分，还有两个模拟靶场（cyber range），衡量模型在复杂多步骤场景中的持续规划和执行能力。

第一个靶场包含32 个评估步骤，AISI 估计人类安全专家完成全部步骤大约需要20 小时。

最新版本的 Claude Mythos Preview——距离 Mythos 首次公开亮相仅5 周，AISI 就拿到了更新的模型检查点——在 10 次测试中完成了6 次。也是第一个在两个靶场上都取得突破的模型。

GPT-5.5 在同一靶场完成了3/10，成为继 Mythos Preview 之后第二个打通全部步骤的模型。

第二个靶场（代号"Cooling Tower"）模拟的是工业控制系统场景，此前没有任何模型完成过。Mythos Preview 首次攻克，10 次中完成了3 次。

值得注意的是：这些靶场没有部署主动防御。AISI 在博客中明确说明，评估场景中没有安全监控、没有告警机制、没有动态响应。实际企业环境中的难度远高于此。

AISI 在 X 上的帖文获得超过10 万次浏览：

"The direction of travel is clear: cyber capabilities are advancing rapidly, and recent models represent a meaningful step up from what came before."

「方向已经明确：网络攻防能力在快速提升，最新模型相比之前有质的飞跃。」

评估本身快跟不上了

这份报告里最值得关注的段落，可能在评估体系的局限上。

AISI 目前的测试使用250 万 token 上限来保证不同模型之间的可比性。但他们坦言：

"Without the 2.5M token cap, success rates are so high that time horizons become impossible to calculate."

「如果取消 250 万 token 上限，成功率高到无法计算时间地平线。」

也就是说：250 万 token 的限制，是 AISI 为了让测试还能出分而人为设置的天花板。放开这个限制，最新模型几乎全过，测试丧失区分度。

具体到数据——Mythos Preview 在 250 万 token 限制下，六个最长任务全部 100% 通过。GPT-5.5 在同样限制下通过了五个；取消上限后，第六个也通过了。

AISI 还指出，如果给模型更大的 token 预算和更强的 agent 框架，表现会进一步提升。在靶场实验中他们最高用了 1 亿 token，发现最新模型的性能「可能在这个预算之上还能继续增长」。

推特用户 @simobis23 评论：

"The interesting signal isn't benchmark scores anymore — it's how fast capabilities are outrunning the benchmarks themselves."

「真正值得关注的信号从跑分本身转移了——关键在能力超越评估工具的速度。」

Ethan Codewell（@Ethan_Smartsys）补充：

"Models hitting test ceilings means we've lost visibility into the capability curve right when it started accelerating."

「模型触到测试天花板，意味着在能力曲线开始加速的关键节点上，观测能力反而丢了。」

▲ AISI 博客中的评估方法论说明：翻倍时间计算依据与不确定性

没人专门训练，能力自然涌现

一个更深层的发现：网络安全能力的增长，大概率是前沿模型通用能力提升的附带结果。

AISI 的翻倍时间估算（4.7 个月）和非营利研究机构 METR 在软件工程任务上的独立估算（4.2 个月）高度接近。The Decoder 报道引述 AISI 的判断：

"Cyberattack capabilities are increasingly emerging as a by-product of general AI improvements in areas like autonomy and programming, rather than being explicitly trained for."

「网络攻击能力越来越多地作为 AI 在自主性和编程等通用领域能力提升的副产品涌现，跟专门训练无关。」

没有人刻意让这些模型学会网络攻击——随着推理、编程和自主执行能力的全面增强，网络安全领域的表现自然跟着提升了。

这个发现比单纯的分数提升更值得重视。

社区反应：防守窗口期在收窄

AISI 的帖文在 X 上引发了广泛讨论。

安全从业者 Darshan Yadav 提出了一个核心问题：

"When attackers and defenders can access the same models, the gap closes for those who build AI into their security workflow. Not doing this yet? The timeline is shorter than it looks."

「当攻防双方都能用同样的模型，差距会向已经把 AI 融入安全工作流的人收拢。还没开始做？窗口期比你想象的短。」

Michał Piszczek 指向一个更底层的错配：

"The real signal is the delta between AI capability growth and enterprise patching velocity. That gap is widening faster than most boards realize."

「真正的信号是 AI 能力增长速度和企业修补漏洞速度之间的差距。这个缺口在以大多数董事会意识不到的速度扩大。」

也有人提出方法论上的质疑。@anko_979 认为 token 上限作为评估标准存在根本问题：

"Use duration or cost. No one cares about tokens."

「应该用时间或成本来衡量，没人关心 token 数。」

Anthropic 方面的回应

Anthropic Mythos 团队负责人 Logan Graham 的帖文确认了 AISI 的评估结果，提到来自 XBOW 和 AISI 的两个独立评估相互印证。帖子获得超过28 万次浏览。

Anthropic 工程师 julia（@mooncat_is）做了一个关键澄清：

"To be clear: this is the Mythos we shipped. The earlier results were from an in-training snapshot."

「需要明确：这次测试用的就是正式发布的 Mythos，此前的结果来自训练中的快照。」

换言之，公众当前可以使用的 Mythos 版本，就是在 AISI 评估中展现出这些能力的版本。

另一个时间线上的细节也引起了关注。推特用户 Igor Kotenkov 指出：

"'newer Mythos checkpoint' — OG Mythos was presented to the public only 5 weeks ago..."

Mythos 正式亮相才 5 周，就已经有了能力更强的新检查点——模型迭代的速度本身也在加快。

从跑分看代际差距

The Decoder 报道还透露了一组分项数据。在 AISI 的 95 道 CTF（夺旗赛）安全任务中，最高难度"专家级"的平均通过率：

GPT-5.5：71.4%
Claude Mythos Preview：68.6%
GPT-5.4：52.4%
Claude Opus 4.7：48.6%

两者接近并列领先，但都大幅甩开了上一代模型。当前一代还在 50% 左右挣扎的时候，最新一代直接跳到了 70% 以上。代际跃升非常陡峭。

AISI 的自我约束和下一步

AISI 在整个报告中反复强调了评估的局限性：

评估使用的是受控窄范围测试套件，模拟场景中没有主动防御
翻倍时间估算依赖少量模型和有限的长任务样本（八小时以上的任务只有六个）
人类基线本身存在误差——不同专家完成时间差异可能很大
这是一个不完美的模型（imperfect model），不构成预测，也不构成固定定律

他们同时也在加紧部署更强的评估手段：新靶场、增强现有靶场难度、加入主动防御措施。

"If this rate of progress persists, AI cyber capabilities will remain a fast-moving target. We are developing tougher evaluations to keep pace."

「如果这个速度持续下去，AI 网络攻防能力将一直是一个快速移动的靶标。我们正在开发更难的评估来跟上节奏。」

英国 NCSC 也已发布使用 AI 模型进行漏洞发现的官方建议。防守方在加速部署 AI 辅助工具，但攻防之间的时间差正在被压缩。

8 个月到 4.7 个月到更快，评估工具被打穿，测试天花板被顶到——留给慢慢布防的时间，确实不多了。

— END —