一夜之间,AI 又把天花板捅穿了: Claude Fable 5 到底意味着什么?

6 月 9 号深夜，Anthropic 悄无声息地放了个大招。

不是模型更新，不是小版本迭代。是直接甩出了第五代 Claude 模型——Fable 5 和 Mythos 5。

如果你那天睡得早，第二天早上打开手机可能会一脸懵：朋友圈被刷屏了，Twitter 上全是 demo 视频，Stripe 宣布用这玩意儿一天干完了两个月的活。

今天这篇文章，我们把三件事说清楚：

Fable 5 到底是个什么东西
现在它能干什么（挑最炸裂的说）
这事对你我意味着什么

◆ ◆ ◆

一、Fable 5 是什么？一句话：被拴了链子的最强模型

先说个背景。

Anthropic 这家公司你可能不陌生，就是做出 Claude 的那家。他们的模型命名一直比较克制，不像某些厂商动不动就"颠覆"、"革命"。

但这次，他们连"Mythos"（神话）这种词都用上了。

Fable 5 和 Mythos 5，是同一个底层模型。区别在哪？

Mythos 5 = 完全体。 没有安全限制，什么都能干。但不给你用。只开放给少数经过审查的网络安全机构和生物医学科研团队。

Fable 5 = 大众版。 给你用，但内置了一套安全分类器。你问它怎么入侵系统、怎么合成病毒、怎么造生化武器——它不会回答，而是悄悄把请求转给旧版 Opus 4.8 处理。

⛓️ 一句话总结：这把枪太猛了，给你的版本拆掉了连发功能。

名字也有讲究。"Fable" 在拉丁语里是"寓言"、"小故事"的意思，跟希腊语的"Mythos"（神话）同源。神话是给诸神的，寓言是讲给凡人听的。品品这个命名逻辑。

◆ ◆ ◆

二、现在它能干什么？几个让你坐不住的例子

2.1 Stripe 5000 万行代码，一天迁移完毕

这是这次发布最出圈的案例。

Stripe 有一个巨大无比的 Ruby 代码库，大概 5000 万行。因为历史原因需要做一次全库级别的迁移重构。

按正常节奏，一个工程团队干这个活得两个多月。

Fable 5 用了一天。

不是生成代码片段，不是辅助写函数。是理解整个代码库，规划迁移策略，执行，验证，修 Bug，全链路自主完成。

"Fable 5 不再只是一个 coding agent。它像是一个跟你并肩工作的思考伙伴。它有判断力，有审美，会从多个维度思考问题。"
—— Claude Code 负责人 Boris Cherny

他说了一个细节：Fable 5 面对一个复杂 Bug 的时候，不会上来就急着改代码。它会先收集日志、加观测点、验证假设——像一个老工程师一样排查。确认问题真正解决了，才宣布完成。

这不是 prompt 能"调"出来的行为。这是模型自己长出来的"性格"。

2.2 编程基准测试，把对手甩出几条街

说几个数字：

80.3%SWE-bench Pro软件工程权威测试

5×FrontierCode Diamond领先 GPT-5.5 近 5 倍

88%Terminal-Bench 2.1命令行操作碾压所有对手

#1Agent Arena24h 登顶，创历史最大分差

"这是一次代际跃升。你可以要求任何东西：解释器、可视化工具、定制应用、把测试套件扩充 10 倍……从未有过这样的诱惑让你完全不去看代码。"
—— Andrej Karpathy，前特斯拉 AI 总监，现已加入 Anthropic

顺便说一句，Karpathy 加入 Anthropic 这件事本身，比任何 benchmark 分数都说明问题。

2.3 它不光会写代码

几个让人瞳孔地震的 demo：

纯靠视觉通关《宝可梦：火红》——不给地图、不给攻略、不给额外工具，只看游戏画面，它就能规划路线、战斗、抓精灵，一路打到底。
看截图还原网页源码——给它一个网页截图，它能反向写出完整的 HTML/CSS/JS 代码。
9.5 小时自主开发完整软件——从一份 19 页的设计文档出发，全程不需要人类插手，独立完成了一款叫 Concord 的工具软件。
24 小时写出 GBA 模拟器——可以完美运行 Game Boy Advance 的所有游戏。

这些东西单独拎出来任何一件，去年都够一个团队发一篇论文。

2.4 但还是得说：它真的很贵

$10每百万输入 token

$50每百万输出 token

是 Opus 4.8 的两倍。

一个中等复杂度的编程任务，随便跑一跑就是 50 万到 100 万 token。换算一下，单次任务的成本可能在 25 到 50 美元之间。

有用户吐槽：Max 订阅计划配的额度，45 分钟就烧完了。

💸 争议焦点：Fable 5 在任务中会大量调用子 Agent。有人做一次代码分析，它开了 60 多个子 Agent。社区炸了，说这是"为了营收不择手段"。不管是不是故意的，一个事实摆在那——AI 编程正在从"包月随便用"变成"按量计费，每一毛钱都要掂量"。

◆ ◆ ◆

三、为什么这件事比你以为的更大

如果你只把 Fable 5 当成"又一个更强的模型"，那就漏掉了真正重要的东西。

3.1 能力分层，正式开始

这是 AI 行业第一次如此明确地把"完整版"和"大众版"切开。

Mythos 5 什么都能干，但你不配用。Fable 5 给你用，但敏感问题上会偷偷降级。

这意味着什么？

最强的 AI 能力，正在变成一种需要"权限"的资源。

今天是网络安全和生物化学领域的限制。明天呢？金融交易？舆论分析？政治咨询？

这不是技术问题，这是治理问题。而且这个趋势不会逆转，只会加速。

3.2 "自主工作"从噱头变成了现实

以前说 AI 能"自主工作"，更多是一种营销话术。实际用起来，还是得人类在旁边盯着，时不时救火。

Fable 5 是第一个真正意义上可以放出去自己跑几个小时甚至几天的模型。

它在 SWE-bench Pro 上的 80% 得分意味着什么？意味着给它一个真实的 GitHub Issue，它有八成概率独立解决，不需要人类插手。

这对软件行业的冲击是结构性的。不是说程序员要失业了，而是"程序员"这个角色的工作内容会发生根本变化——从"写代码的人"变成"给 AI 分配任务并 review 结果的人"。

3.3 Token 经济的到来

你可能注意到了，Fable 5 的定价模式有一个微妙的变化。

以前订阅一个 AI 服务，月费固定，随便用。现在 Anthropic 明确说：免费体验期到 6 月 22 日就结束，之后要用 usage credits 按量计费。

⛽ 关键转变：AI 正在从"自来水"变成"汽油"——不是按月交水费，是按升加油。

对普通用户来说，这意味着使用 AI 需要更谨慎的决策：什么任务值得用最贵的模型？什么任务用便宜的就行？

对开发者来说，这意味着 prompt 工程、token 优化、模型选择这些技能，会变得越来越值钱。

3.4 中国 AI 的差距，可能比你以为的大

Fable 5 发布后，国内 AI 圈的讨论异常安静。

SWE-bench Pro 80% vs GPT-5.5 的 58%。而国产模型在这个榜单上的表现……基本没有公开数据。

不是说国产模型不行。豆包、Kimi、DeepSeek 在各自的方向上都做得不错。但在长周期自主编程、复杂推理、Agent 能力这个维度上——Fable 5 把标杆抬到了一个让人窒息的高度。

这不是焦虑贩卖。这是事实陈述。

好消息是，Anthropic 的模型不对中国市场直接提供服务。这给国产模型留出了时间和空间。但窗口不会永远开着。

◆ ◆ ◆

四、所以，Fable 5 到底预示了什么

如果只让我说三句话：

第一，AI 的能力天花板又被捅穿了。SWE-bench 80% 意味着在编程这个领域，AI 正在从"辅助工具"变成"主力输出"。而且这个趋势会蔓延到其他领域。

第二，"权限时代"来了。最强 AI 不再是"谁付钱就能用"，而是"谁有资格才能用"。这会重塑整个行业的权力结构。

第三，Token 经济会改变每个人的使用习惯。当最好的 AI 按 token 计费，你怎么用它，就变成了一个经济决策。这将催生一整套新的技能、工具和商业模式。

最后一句话：

Fable 5 的意义不在于它比上一个版本强了多少个百分点。

而在于它让我们看清了一件事：AGI 的轮廓，已经从"远处的模糊影子"变成了"正在逼近的巨浪"。