视频:I Made Opus 4.8 and Fable 5 Build the Same App (RAW RESULTS)
来源:Pat Simmons
发布日期:2026-06-11
作者干了一件很硬核的事:把完全相同的 prompt,分别丢给 Anthropic 的 Opus 4.8 和它刚发布的新旗舰 Fable 5,连跑三道建站题,看谁真能一次性把东西做出来。规则对两边一模一样——单次 one-shot 输出,不许返工修改,做完直接部署上线。三道题分别是:一个完整能用的电商店铺、一个艺术史 3D 博物馆、一个《帝国时代》clone。

作者一开口就把结论剧透了:"差距大到我说句实话,根本不是一个量级。"下面是这场对决到底怎么打的。
这场对比想回答什么
市面上对 Fable 5 的评价褒贬不一,很多人说它慢、说它不如 Opus 系列稳。作者不想看 demo,他要的是同一道题、同样规则、各跑一遍的原始结果,看谁在"从零搭一个能跑的真实应用"这种活上更扛打。
每道题都不是单点考察,而是一次压多个能力:界面设计、底层数据库、整体架构、数据抓取、3D 渲染、游戏逻辑。做不出来就是做不出来,没有第二次机会。
实测设置
环境是 cursor,左边跑 Fable 5,右边跑 Opus 4.8。作者还自己搭了一个用量追踪器,实时显示输入 token、输出 token,以及"如果按用量计费会花多少钱"——这点很关键,因为 Fable 5 据说再过两周就要切到按量付费。
评判维度也很直白:能不能跑通、界面细节到不到位、3D 真不真实、用时多久、烧多少 token/钱。
第一题:Slowburn 蜡烛电商店
题目是给一个虚构小众蜡烛品牌 Slowburn 建完整电商站,对标真实 Shopify 店铺质感,要 30 个互不相同的产品,每张产品图必须视觉上有区分,所有文字必须可读、不许低对比度。
作者特意提了一句:这道题他之前用 Claude 的 dynamic workflows(一次撒出 30 多个并行智能体的新功能)跑过,结果很拉胯——店是建起来了,但每个产品长得一模一样、没有标签、落地页连 hero 图都没有。这次他改了 prompt,专门点名了产品标签等坑,想给 Opus 一个翻身机会。
过程上 Fable 5 明显更快。当 Fable 5 已经卡在图像生成那一步、等 30 张图渲染时,Opus 还在跑后面的构建。有意思的是,两个模型给出的设计方向选项几乎一字不差(Warm Apothecary、Dark Ritual、Editorial 那一套)。
Opus 4.8 的成品:及格但毛病一堆。比上次 dynamic workflows 强,至少文字能读了、蜡烛也有标签了。但作者随手就挑出一串问题:
标题 "small batch candle co." 排版别扭、读着不顺 hero 里蜡烛压在文字左边、很难辨认,应该放右边——这种细节作者觉得模型本该自己注意到 CTA 按钮设计很丑 分类筛选器逻辑混乱,"为什么会觉得这能当一个正经筛选" 购物车图标看着像个垃圾桶,导航栏交互"就是糟糕的 UX"
Fable 5 的成品:明显高一档。字体还是那个怪字体,但整体干净得多。顶部有电商常见的滚动通知条、渐变背景、更好看的按钮。
最让作者震撼的是图像生成:他完全没给如何 prompt 图像模型的指示,但 Fable 5 自己就懂得怎么去 prompt GPT image 2,拍出了带树枝、阴影、阳光、纹理背景的那种高级蜡烛质感大片,连蜡烛配色都更准。"全部候选页一个三列网格铺开,它甚至会从蜡烛取色、配上同色调背景,连背景里下雨天的氛围都有"——作者直呼"这是真的离谱地强"。
数字对比(按量计费折算):
- Opus 4.8:198,000 输出 token,约 $21.41
- Fable 5:18,000 输出 token,约 $36.84
——token 更省,但单价更贵所以总价更高 - 速度:Fable 5 约 35 分钟,Opus 4.8 约 50 分钟,Fable 5 快了约 15 分钟
第一题,Fable 5 完胜。
第二题:艺术史 3D 博物馆
这题作者说自己折腾了好几年、没有任何模型真正做成过。要的是一个浏览器里跑的可交互 3D 艺术史博物馆:一条可缩放的无限画布时间线,放大到比如 Baroque 时期,该时代的著名艺术家就浮现出来;点 Caravaggio 能看到他的博物馆铭牌,再进去就是一个完整的 3D Caravaggio 画廊,能走进去看画。
数据全部用 Wikipedia commons API实时抓取,存进 Neon 数据库。作者特意强调:"这绝不能是一个偷懒的 three.js demo,画廊要尽可能真实,灯光、tone mapping 全都要。"
这题一次考三件难事:从零架构复杂系统、从 Wikipedia 抓上百幅画并组织入库、以及最难的真实 3D 世界渲染——以往这种活的产出"都是丑陋的 blobby three.js"。
过程中两个模型抓 bug 的能力暴露了差距。Opus 4.8 一上来就指出公开版权限制——Picasso、Dali 这类现代艺术家的画不在公共领域、抓不了图,于是只用公版图像。Fable 5 这边的细节更惊人:
它自己跑去用 Cloud Chrome 扩展实测缩放、滚轮、平移,主动发现了作者过去做这个 build 反复踩的"移动/缩放手感很烂"的坑 它揪出 Francis Bacon 抓取失败的根因——这位画家的维基词条标题带括号叫 "Francis Bacon (artist)",因为维基上还有另一个非艺术家的 Francis Bacon,导致派生出来的分类名整个错了。作者形容这是"大海捞针级别"的排错 它甚至主动吐槽自己的设计:"博物馆截图里纯黑的地板让我不舒服,我去看看地板和灯光设置"——作者说这是他第一次见到模型对设计这么有主见
Fable 5 还展现了智能体编排能力:撒出一堆并行智能体,"某个 agent 完成后会重新叫我,我再继续",自己在后台推进工作。它比 Opus 早约 15 分钟做完,剩下时间一直在排队干活。最终状态:16 个时期、69 个艺术家、767 幅画进了 Neon 数据库。
烧钱也很猛:作者用的是 Max 20x 订阅,开跑时还剩 65% 用量,两个模型同时跑,30 分钟里烧掉了将近 40% 的用量。
成品对比:
Opus 4.8的时间线视图其实不差——配色分区清楚,早期文艺复兴、北方文艺复兴有漂亮的重叠,能缩放、点开会弹出。作者说"论组织结构和视觉层级,这是我在所有模型里见过的最好产出"。但致命问题来了:画布的拖动和点击事件冲突,根本点不进任何艺术家,进不去画廊。"agent 本该 QA 这个的。"——一票否决。
Fable 5直接做出了作者脑子里想象的东西:星象图风格的时间线,艺术家是星点、按生卒年代相互重叠,缩放时小点会变成featured 卡片。点进 Degas,带 GSAP 动画的画廊,"Click to enter"——进去之后是一个能用左右方向键走动、鼠标环顾四周看画的真实 3D 画廊,灯光质感到位。
"这太酷了,想象一下小时候有这个,学起来得多有意思。"作者强调:这一切全来自 Wikipedia,跨上百位艺术家、近 1000 幅画,30 分钟搞定。
数字对比:
- Opus 4.8:51,000 输入 / 437,000 输出 token,约 $46
- Fable 5:54,000 输入 / 280,000 输出 token,约 $64
——输出 token 少了一大截、明显更省,但折算下来贵约 37%
第二题,又是 Fable 5 拿下。Opus 连画廊都进不去。
第三题:《帝国时代》clone
最后这道作者自己都说期望很低。要一个浏览器里完全可玩的《帝国时代》式即时战略游戏:完整 3D 世界(three.js 或 WebGL)、从 town center 开局、几十个单位、会攻击你的敌人、建造文明的玩法,"做得像个真游戏,灯光要能玩"。两个模型又一次问了一模一样的问题(视觉风格选哪个),作者都选了"painterly 写实多纹理",不要低多边形。
速度:Opus 33 分钟,Fable 5 30 分钟。
Opus 4.8 的成品:直接坏掉。开局叫 "Bronze Dawn",画面"就是一堆 blob,离《帝国时代》的画面差太远"。作者试着左键选中 town center 能选上,但没法移动、没法缩放、房子建不了、整个世界动不了。"这 app 就是不工作",他没浪费时间,直接判 Opus 没完成任务。
Fable 5 的成品:作者全程在惊呼。游戏叫 "Empires of Dawn",地图能动、文明在那儿、画质"跟《帝国时代》一样好"。能建房子、建农场,敌人自带盔甲,有人口上限、资源不够会提示"need resources"——完全可玩、地图可导航。
"这哪是单纯一次模型升级,光是画质就……我实在没法不盯着这些画面看。"作者半开玩笑说这东西"要上 Steam 卖 $2.99 了"。
第三题,Fable 5 再次碾压。
关键差异与结论
三道题,Fable 5 三比零完胜。而且不是险胜,是每一道都明显高一档。
把作者反复点到的差异拎出来:
- 执行完成度
:Opus 在两道难题(3D 博物馆、RTS 游戏)上都做出了点不进去、动不了的半成品;Fable 5 三道全部真正跑通可交互。 - 细节自觉性
:Fable 5 会主动 prompt 图像模型出高级图、会自测交互手感、会吐槽自己地板太黑——很多作者根本没要求的事它自己补上了。 - 排错深度:
Fable 5 能揪出 "Francis Bacon (artist)" 这种维基命名导致的隐蔽数据 bug。 - 速度
:在前两题里 Fable 5 都比 Opus 4.8 快约 15 分钟,这和外界"Fable 5 慢"的传言相反。 - 成本
:Fable 5 输出 token 明显更省(电商题 18K vs 198K),但单价更贵,总价反而高 37% 左右——印证了 Anthropic 在发布时说的"更 token 高效",但按量计费后单次复杂 build 可能要 $64 这个量级。
作者最后那句话很真实:他甚至不太希望 Fable 5 这么强——因为一旦习惯了这种质量,"Opus 4.8 就再也满足不了你了,这八成正是 Anthropic 的算盘"。
对你选模型 / 用模型的启发
- 要一次成型、能交互的复杂应用
(3D、游戏、带数据抓取的全栈),Fable 5 目前明显更靠谱,少返工。 - 预算敏感时要算总账
:token 省 ≠ 花钱少,Fable 5 单价贵,复杂 build 单次几十美元起步,做之前先想清楚值不值。 - 别只看一次 demo 下结论
:"Fable 5 慢"这种二手印象在实测里被推翻了,同题对跑才是最公平的检验。 - prompt 里点名你踩过的坑
(产品标签、文字对比度、别做偷懒 demo),对两个模型都有效——作者第二次跑电商题就是靠这招避开了上次的低级错误。
收尾
这场对决最有价值的不是"谁赢",而是它把"一次性建一个真能跑的 App"这件事,放在统一规则、统一题目、有 token 和耗时数字的台子上跑了一遍。结论很干脆:Fable 5 在执行完成度、设计自觉、排错和速度上全面领先,代价是更高的单次费用。至于这份质量提升值不值那张账单,作者把判断权交给了你。
夜雨聆风