同一道建 App 题甩给 Opus 4.8 和 Fable 5,结果一边倒

视频：I Made Opus 4.8 and Fable 5 Build the Same App (RAW RESULTS)

来源：Pat Simmons

发布日期：2026-06-11

作者干了一件很硬核的事：把完全相同的 prompt，分别丢给 Anthropic 的 Opus 4.8 和它刚发布的新旗舰 Fable 5，连跑三道建站题，看谁真能一次性把东西做出来。规则对两边一模一样——单次 one-shot 输出，不许返工修改，做完直接部署上线。三道题分别是：一个完整能用的电商店铺、一个艺术史 3D 博物馆、一个《帝国时代》clone。

作者一开口就把结论剧透了："差距大到我说句实话，根本不是一个量级。"下面是这场对决到底怎么打的。

这场对比想回答什么

市面上对 Fable 5 的评价褒贬不一，很多人说它慢、说它不如 Opus 系列稳。作者不想看 demo，他要的是同一道题、同样规则、各跑一遍的原始结果，看谁在"从零搭一个能跑的真实应用"这种活上更扛打。

每道题都不是单点考察，而是一次压多个能力：界面设计、底层数据库、整体架构、数据抓取、3D 渲染、游戏逻辑。做不出来就是做不出来，没有第二次机会。

实测设置

环境是 cursor，左边跑 Fable 5，右边跑 Opus 4.8。作者还自己搭了一个用量追踪器，实时显示输入 token、输出 token，以及"如果按用量计费会花多少钱"——这点很关键，因为 Fable 5 据说再过两周就要切到按量付费。

评判维度也很直白：能不能跑通、界面细节到不到位、3D 真不真实、用时多久、烧多少 token/钱。

第一题：Slowburn 蜡烛电商店

题目是给一个虚构小众蜡烛品牌 Slowburn 建完整电商站，对标真实 Shopify 店铺质感，要 30 个互不相同的产品，每张产品图必须视觉上有区分，所有文字必须可读、不许低对比度。

作者特意提了一句：这道题他之前用 Claude 的 dynamic workflows（一次撒出 30 多个并行智能体的新功能）跑过，结果很拉胯——店是建起来了，但每个产品长得一模一样、没有标签、落地页连 hero 图都没有。这次他改了 prompt，专门点名了产品标签等坑，想给 Opus 一个翻身机会。

过程上 Fable 5 明显更快。当 Fable 5 已经卡在图像生成那一步、等 30 张图渲染时，Opus 还在跑后面的构建。有意思的是，两个模型给出的设计方向选项几乎一字不差（Warm Apothecary、Dark Ritual、Editorial 那一套）。

Opus 4.8 的成品：及格但毛病一堆。比上次 dynamic workflows 强，至少文字能读了、蜡烛也有标签了。但作者随手就挑出一串问题：

标题 "small batch candle co." 排版别扭、读着不顺
hero 里蜡烛压在文字左边、很难辨认，应该放右边——这种细节作者觉得模型本该自己注意到
CTA 按钮设计很丑
分类筛选器逻辑混乱，"为什么会觉得这能当一个正经筛选"
购物车图标看着像个垃圾桶，导航栏交互"就是糟糕的 UX"

Fable 5 的成品：明显高一档。字体还是那个怪字体，但整体干净得多。顶部有电商常见的滚动通知条、渐变背景、更好看的按钮。

最让作者震撼的是图像生成：他完全没给如何 prompt 图像模型的指示，但 Fable 5 自己就懂得怎么去 prompt GPT image 2，拍出了带树枝、阴影、阳光、纹理背景的那种高级蜡烛质感大片，连蜡烛配色都更准。"全部候选页一个三列网格铺开，它甚至会从蜡烛取色、配上同色调背景，连背景里下雨天的氛围都有"——作者直呼"这是真的离谱地强"。

数字对比（按量计费折算）：

Opus 4.8：198,000 输出 token，约 $21.41
Fable 5：18,000 输出 token，约 $36.84
——token 更省，但单价更贵所以总价更高
速度：Fable 5 约 35 分钟，Opus 4.8 约 50 分钟，Fable 5 快了约 15 分钟

第一题，Fable 5 完胜。

第二题：艺术史 3D 博物馆

这题作者说自己折腾了好几年、没有任何模型真正做成过。要的是一个浏览器里跑的可交互 3D 艺术史博物馆：一条可缩放的无限画布时间线，放大到比如 Baroque 时期，该时代的著名艺术家就浮现出来；点 Caravaggio 能看到他的博物馆铭牌，再进去就是一个完整的 3D Caravaggio 画廊，能走进去看画。

数据全部用 Wikipedia commons API实时抓取，存进 Neon 数据库。作者特意强调："这绝不能是一个偷懒的 three.js demo，画廊要尽可能真实，灯光、tone mapping 全都要。"

这题一次考三件难事：从零架构复杂系统、从 Wikipedia 抓上百幅画并组织入库、以及最难的真实 3D 世界渲染——以往这种活的产出"都是丑陋的 blobby three.js"。

过程中两个模型抓 bug 的能力暴露了差距。Opus 4.8 一上来就指出公开版权限制——Picasso、Dali 这类现代艺术家的画不在公共领域、抓不了图，于是只用公版图像。Fable 5 这边的细节更惊人：

它自己跑去用 Cloud Chrome 扩展实测缩放、滚轮、平移，主动发现了作者过去做这个 build 反复踩的"移动/缩放手感很烂"的坑
它揪出 Francis Bacon 抓取失败的根因——这位画家的维基词条标题带括号叫 "Francis Bacon (artist)"，因为维基上还有另一个非艺术家的 Francis Bacon，导致派生出来的分类名整个错了。作者形容这是"大海捞针级别"的排错
它甚至主动吐槽自己的设计："博物馆截图里纯黑的地板让我不舒服，我去看看地板和灯光设置"——作者说这是他第一次见到模型对设计这么有主见

Fable 5 还展现了智能体编排能力：撒出一堆并行智能体，"某个 agent 完成后会重新叫我，我再继续"，自己在后台推进工作。它比 Opus 早约 15 分钟做完，剩下时间一直在排队干活。最终状态：16 个时期、69 个艺术家、767 幅画进了 Neon 数据库。

烧钱也很猛：作者用的是 Max 20x 订阅，开跑时还剩 65% 用量，两个模型同时跑，30 分钟里烧掉了将近 40% 的用量。

成品对比：

Opus 4.8的时间线视图其实不差——配色分区清楚，早期文艺复兴、北方文艺复兴有漂亮的重叠，能缩放、点开会弹出。作者说"论组织结构和视觉层级，这是我在所有模型里见过的最好产出"。但致命问题来了：画布的拖动和点击事件冲突，根本点不进任何艺术家，进不去画廊。"agent 本该 QA 这个的。"——一票否决。

Fable 5直接做出了作者脑子里想象的东西：星象图风格的时间线，艺术家是星点、按生卒年代相互重叠，缩放时小点会变成featured 卡片。点进 Degas，带 GSAP 动画的画廊，"Click to enter"——进去之后是一个能用左右方向键走动、鼠标环顾四周看画的真实 3D 画廊，灯光质感到位。

"这太酷了，想象一下小时候有这个，学起来得多有意思。"作者强调：这一切全来自 Wikipedia，跨上百位艺术家、近 1000 幅画，30 分钟搞定。

数字对比：

Opus 4.8：51,000 输入 / 437,000 输出 token，约 $46
Fable 5：54,000 输入 / 280,000 输出 token，约 $64
——输出 token 少了一大截、明显更省，但折算下来贵约 37%

第二题，又是 Fable 5 拿下。Opus 连画廊都进不去。

第三题：《帝国时代》clone

最后这道作者自己都说期望很低。要一个浏览器里完全可玩的《帝国时代》式即时战略游戏：完整 3D 世界（three.js 或 WebGL）、从 town center 开局、几十个单位、会攻击你的敌人、建造文明的玩法，"做得像个真游戏，灯光要能玩"。两个模型又一次问了一模一样的问题（视觉风格选哪个），作者都选了"painterly 写实多纹理"，不要低多边形。

速度：Opus 33 分钟，Fable 5 30 分钟。

Opus 4.8 的成品：直接坏掉。开局叫 "Bronze Dawn"，画面"就是一堆 blob，离《帝国时代》的画面差太远"。作者试着左键选中 town center 能选上，但没法移动、没法缩放、房子建不了、整个世界动不了。"这 app 就是不工作"，他没浪费时间，直接判 Opus 没完成任务。

Fable 5 的成品：作者全程在惊呼。游戏叫 "Empires of Dawn"，地图能动、文明在那儿、画质"跟《帝国时代》一样好"。能建房子、建农场，敌人自带盔甲，有人口上限、资源不够会提示"need resources"——完全可玩、地图可导航。

"这哪是单纯一次模型升级，光是画质就……我实在没法不盯着这些画面看。"作者半开玩笑说这东西"要上 Steam 卖 $2.99 了"。

第三题，Fable 5 再次碾压。

关键差异与结论

三道题，Fable 5 三比零完胜。而且不是险胜，是每一道都明显高一档。

把作者反复点到的差异拎出来：

执行完成度
：Opus 在两道难题（3D 博物馆、RTS 游戏）上都做出了点不进去、动不了的半成品；Fable 5 三道全部真正跑通可交互。
细节自觉性
：Fable 5 会主动 prompt 图像模型出高级图、会自测交互手感、会吐槽自己地板太黑——很多作者根本没要求的事它自己补上了。
排错深度：
Fable 5 能揪出 "Francis Bacon (artist)" 这种维基命名导致的隐蔽数据 bug。
速度
：在前两题里 Fable 5 都比 Opus 4.8 快约 15 分钟，这和外界"Fable 5 慢"的传言相反。
成本
：Fable 5 输出 token 明显更省（电商题 18K vs 198K），但单价更贵，总价反而高 37% 左右——印证了 Anthropic 在发布时说的"更 token 高效"，但按量计费后单次复杂 build 可能要 $64 这个量级。

作者最后那句话很真实：他甚至不太希望 Fable 5 这么强——因为一旦习惯了这种质量，"Opus 4.8 就再也满足不了你了，这八成正是 Anthropic 的算盘"。

对你选模型 / 用模型的启发

要一次成型、能交互的复杂应用
（3D、游戏、带数据抓取的全栈），Fable 5 目前明显更靠谱，少返工。
预算敏感时要算总账
：token 省 ≠ 花钱少，Fable 5 单价贵，复杂 build 单次几十美元起步，做之前先想清楚值不值。
别只看一次 demo 下结论
："Fable 5 慢"这种二手印象在实测里被推翻了，同题对跑才是最公平的检验。
prompt 里点名你踩过的坑
（产品标签、文字对比度、别做偷懒 demo），对两个模型都有效——作者第二次跑电商题就是靠这招避开了上次的低级错误。

收尾

这场对决最有价值的不是"谁赢"，而是它把"一次性建一个真能跑的 App"这件事，放在统一规则、统一题目、有 token 和耗时数字的台子上跑了一遍。结论很干脆：Fable 5 在执行完成度、设计自觉、排错和速度上全面领先，代价是更高的单次费用。至于这份质量提升值不值那张账单，作者把判断权交给了你。