AI 的“安全防线”如何筑起 | 看懂新发布的 Claude Fable 5 与 Mythos 5

前几天，AI 领域迎来了一次瞩目的发布：大模型厂商 Anthropic 推出了其有史以来最强大的 AI 模型系列——Mythos 级模型，并率先向大众开放了其中的Claude Fable 5。与此同时，它还伴随着一个更为神秘的、仅限特定机构使用的兄弟版本Claude Mythos 5。

面对这两个新名词，普通大众可能觉得这只是“AI 又变聪明了”。但在网络安全圈，这次发布却引发了广泛的讨论。因为这一代被称为“Mythos 级”的模型，拥有极其强悍的“寻找软件漏洞”的能力。

注：Mythos 级的由来

之前大家熟悉的 Claude 家族是 Haiku → Sonnet → Opus 三级。今年 4 月，Anthropic 悄悄推出了一个全新的顶级类别——Mythos（神话级）。

当 AI 成为一把威力巨大的双刃剑，它到底安全吗？会成为黑客的帮凶吗？今天我们就用大白话，从网络安全的角度聊聊这两个新模型，以及它们和我们普通人的关系。

1. 为什么“Mythos 级”模型让安全圈高度紧张？

在过去，我们熟悉的 AI 主要帮我们写写邮件、润色文章，或者写点简单的代码。但到了 Mythos 级别，AI 的推理能力和长时间执行复杂任务的能力（也就是所谓的“长周期智能体工作”）有了质的飞跃。

简单来说，在早期的预览测试中，研究人员发现这类模型甚至不需要专门的黑客教学，就能在复杂的操作系统（如 Windows、macOS）和网页浏览器中主动寻找尚未被修复的安全漏洞。

·如果正派拿到它：可以在黑客发现漏洞之前，把软件的漏洞全部修补好，网络世界变得更安全。

·如果反派拿到它：它可以更低成本、高效率地制造出难以防范的恶意软件和攻击工具，威胁网络世界的安全。

面对这种具有两面性的强大能力，如何保证它不落入坏人之手？这就引出了 Anthropic 的“双模型分发策略”。

2. Mythos 5 与 Fable 5：一个锁在保险箱，一个走向大众

为了平衡“强大技术”与“网络安全”，官方采取了截然不同的分发方式：

Claude Mythos 5

Mythos 5 是完全解开束缚的“完全体”。它没有内置针对敏感安全请求的拦截器，这意味着它在面对复杂的网络安全分析时不会受到限制。

正因其威力巨大，普通公众是无法在公开渠道使用 Mythos 5 的。它被严格限制在了一项名为“Project Glasswing”计划的合作网络中。只有通过了严格审核的科技巨头和大型机构（如苹果、微软、谷歌、亚马逊等）才拥有使用权。这些巨头用它来扮演内部的“白帽黑客”，疯狂测试自家软件的弱点，并在其被恶意利用前完成修复。

Claude Fable 5

面向我们普通大众、开发者和企业广泛开放的，是Claude Fable 5。它拥有和 Mythos 5 一样顶尖的智商，但不同的是，它穿上了厚厚的“安全防护服”。

Fable 5 内置了极其严格的自动安全检查。只要它察觉到用户在试图利用它做以下两类事情，它就会立刻启动拦截机制：

1.攻击性网络安全技术：例如构建系统漏洞利用、编写恶意软件或攻击工具。

2.高风险生物与生命科学查询：例如探听危险实验方法或分子机制。

3. 聪明的“安全刹车”机制

很多人可能会好奇，如果我不小心在 Fable 5 的对话框里输入了一个涉及敏感网络攻击的词汇，大模型会直接死机或者冷冰冰地弹出一行报错吗？

实际上，它的应对方式非常聪明，被称为自动模型切换机制：

·输入时拦截：如果你刚把问题发过去，安全雷达就发现不对劲，Fable 5 会直接拒绝回答，并将这个对话无缝切换给能力稍微低一点但更安全的旧模型（如 Opus 系列）来接待你。

·中途拦截：如果它回答到一半，突然发现话锋可能被用来搞破坏，它会瞬间“紧急刹车”掐断输出，剩下的回应同样交由安全模型来接管。

为了防止黑客通过“诱导、说黑话（即越狱）”的方式调教 AI，官方在发布前举行了超过 1000 个小时的外部漏洞悬赏（Bug Bounty）计划，让全世界的安全高手来找茬。结果表明，目前并未发现能够彻底绕过 Fable 5 安全防线的通用方法。

4. 总结：普通人需要担心吗？

Claude Fable 5 和 Mythos 5 的发布，标志着 AI 正式进入了“高价值、高风险”的深水区。但作为普通大众，我们完全不需要恐慌：

·安全防御走在了前头：科技界并没有盲目追求商业利益而放出“脱缰的野马”。高风险的版本被严格管控在正规军手中，成了修补网络世界的盾牌。

·日常使用更高效：我们可以放心地使用 Fable 5 去处理复杂的长篇文件、分析繁杂的行业报告、整理研究架构，体验科技带来的生产力暴涨，而不用担心技术本身失控。

科技的进步伴随着更成熟的安全防御，这或许才是 AI 时代应有的良性发展轨迹。Claude Fable 5 和 Mythos 5 的发布，表面上是两款新模型，实际上是 Anthropic 对"如何安全地释放前沿 AI 能力"这个命题的一次系统回答。Fable 5 回答的是"AI 能做到多好"，Mythos 5 回答的是"AI 能在多安全的前提下做到多好"。两者加在一起，才是 Anthropic 对 AI 未来的完整判断：能力不是问题，安全地释放能力才是问题。

参考文献：

【1】Anthropic. Claude Fable 5 and Claude Mythos 5. https://www.anthropic.com/news/claude-fable-5-mythos-5.

【2】Anthropic.Project Glasswing. https://www.anthropic.com/glasswing.