AI越强,人越像“甲方”:Anthropic最强模型Mythos 5降临,但只有少数人能用上满血版

这也许是AI产品史上最矛盾的一次发布

一个模型强到能自己设计蛋白、打通关《宝可梦》、在一周内拼凑138个物种的基因组数据——

但Anthropic先给95%的用户套上了“防护网”，再把钥匙递出去。

另外5%的人呢？他们拿到了满血版Mythos 5，但得接受30天的数据留存，还要签信任协议。

前沿AI，开始进入权限时代了。

这不是技术问题，这是权力分配问题。

双版本“神话”：一个戴着镣铐跳舞，一个暗夜独行

Anthropic这次把旗舰模型分成了两个版本：

Claude Fable 5
：面向所有用户开放，但背后挂了一组独立分类器。一旦你的提问触发风险（比如网络安全、生物化学风险、模型蒸馏），系统会自动降级调用上一代Claude Opus 4.8来回答。你压根不知道自己被“换了个模型”。
Claude Mythos 5
：满血版，只给少数受信任用户使用。网络安全、生物科研等领域安全限制解除，官方说它“拥有全球最顶尖的网安攻防与生物科研纯血能力”。

两个版本共享同一底层模型，但体验天差地别。

超过95%的Fable 5会话不会触发降级——对绝大多数写作、代码、分析任务来说，你的体验接近Mythos 5。但剩下不到5%的请求，会进入更严格的安全路径。

有意思的是，Anthropic不再让模型直接拒绝回答“抱歉我不能……”了，而是做了模型路由：高风险问题自动切到Opus 4.8，至少给你一个次优方案。

代价是什么？ 分类器调得比较保守，正常请求也可能被误伤。 生物学家研究病毒、安全工程师做攻防演练，都可能触发降级。

实力碾压：从修Bug到打通关《宝可梦》，从“外包工”到“设计院”

Fable 5/Mythos 5的能力到底有多强？几个数字就够了：

SWE-bench Pro
：80.3%（GPT-5.5只有58.6%）
Frontier Code评测
：中等推理强度下就拿到所有前沿模型最高分
ViBench端到端前端开发
：几乎打穿，实现“一枪流”生成应用
GDPpdf视觉推理
：29.8%（Opus 4.8是22.5%，GPT-5.5是24.9%，Gemini 3.1 Pro是16.7%）

但比数字更震撼的是案例。

Stripe 5000万行Ruby代码库全库迁移——原本工程团队手动做要两个多月，Fable 5只用了一天。

原生视觉盲打通关《宝可梦·火红版》 ——以前需要复杂的外部“脚手架”，现在仅凭一张张原始游戏截图，完全自主推演，硬生生打通关整部游戏。这种“长序列专注度”让它在《杀戮尖塔》中的表现直接飙升3倍。

关键不在于它能做什么，而在于它能自主做多久。 自主运行时间比以往任何Claude模型都长，而且任务越长、越复杂，优势越明显。

科学界的震惊：AI训练出的微型模型击败了《Science》论文

最让我头皮发麻的案例来自基因组学研究。

Mythos 5自主工作了一周多，拼凑了138个物种的单细胞数据，自主设计训练了一个定制的微型机器学习模型。

这个由AI训练出来的、体积小了100倍的微型模型，在表现上直接击败了前不久刚刚发表在《Science》杂志上的最新科研成果。

换句话说：AI自己设计了一个更聪明的“学生模型”，然后这个学生打败了人类科学家几个月的心血结晶。

在与Opus系列模型的盲法直接对比中，科学家在80%的情况下更倾向于Mythos的分子生物学假设，并且已将其中几个假设推进到实验验证阶段。

更离谱的是，Mythos 5提出的一个关于大肠杆菌蛋白的新机制假设，在另一家独立研究同一问题的实验室的研究中得到了证实。

它已经开始产出真正能被科学界验证的原创性知识了。

AI越强，人越像“甲方”

著名AI学者、沃顿商学院教授埃森·莫里克（Ethan Mollick）拿到内测权限后，写下了一篇令人不安的长文。

他让Fable 5做一个等时圈地图——这个任务要查航班、查铁路时刻、判断道路速度，处理不同国家不同交通方式。Fable 5自己启动多个代理，拿到2200多个具体航班信息，抓取TGV、新干线等铁路数据，最后整合成一个可用的地图项目。

整个过程，他只需要提出需求，然后验收结果。

莫里克提出了一个深刻的洞察：

过去，人类用大模型就像“巫师”，必须手把手地指导它、微调每一句Prompt。而现在，面对Mythos级别的模型，人类正在沦为“赞助人”或者“甲方”。

他给Fable 5喂了一个15页的项目设计文档，留下宏观需求描述。接下来的9个多小时里，Fable 5在后台完全自主运行：自己生成Agent工作流，内部调度多个小Agent分别调研、撰写大纲、校对、纠错重来。

人类甚至不需要介入半步。9小时后，一个极高质量的成品直接交付。

这就是所谓的“工作室”隐喻。以前你用大模型是雇佣一个临时自由职业者；现在，你用几美金的Token，瞬间雇佣了一整家好莱坞级别的设计院。

愉悦之处在于，我只需提出要求，它就能实现。不安之处也在于，我只需提出要求，它就能实现。

AI越像承包方，人类越像需要具备验收能力的甲方。

代价：能力越强，审查越严

当然，美好图景背后是现实的价格和代价。

Fable 5和Mythos 5统一定价：每百万输入Token 10美元，每百万输出Token 50美元。比预览版便宜一半以上，但仍然是高价模型。

从今天起，所有Mythos级模型流量保留30天，覆盖第一方和第三方使用场景。官方说数据不用于训练，只用于安全监控——但对企业和隐私敏感用户来说，这可能需要重新评估。

好消息是价格降了，坏消息是强能力从来不廉价，而且越来越贵的不只是钱。

一个人的黄金时代，也可能是另一个人的权力危机

回到Anthropic这次发布。

有人欢呼最强模型终于降临，有人焦虑自己会否被降级，有人在彻夜调试代码只为追上那条不断向前狂奔的智能曲线。

但也有一个越来越清晰的信号：

当AI开始自主产出原创知识、自主调度多步任务、自主修正错误——人类的位置在哪里？

不是技术被替代，而是决策权和判断力的转移。

你不再需要学会“怎么用AI”，你只需要学会“怎么验收AI做的活”。

窗口期只有两周：6月22日前，Pro、Max、Team和企业版用户可以免费用Fable 5。之后就要买usage credits了。

去试试吧。然后问问自己：

如果AI能替你做好一切，你还能做什么？