先说能力。在 Mollick 进行的每一项实验中,Fable 都以相当大的优势超越了其他所有公开模型。它能够持续工作十余小时,执行多页规格说明书级别的任务,产出的结果令人惊讶。以下是他测试过的一些具体案例。它从一个提示词加一次反馈中,生成了”迄今所见最成熟的 AI 学术社会科学论文”。它还创作了一部十页长的押韵史诗,主题关于理发,且全文每个单词均以字母 s 开头。此外,Mollick 还让 Fable 创建了一批可直接体验的游戏——全部基于他在 Claude Code中输入的一个初始提示词,随后只有两三次追加提示词,内容无非是”让它更好一点”或给出少量反馈。由于 Claude 无法生成图片,所有游戏美术和 3D 对象均通过纯数学计算完成,没有使用任何外部素材。这批游戏中包括:一款以硬币翻转为核心机制的类 Roguelike 游戏(提示词为”Balatro,但换成硬币翻转游戏”),游戏体验相当有趣;一款自我意识觉醒版的贪吃蛇游戏,蛇在获得自我意识后发生各种异象;以及一款探索深渊的游戏。然而,随着 Mollick 将 Fable 应用于更加严肃的项目,一个介于”令人愉悦”与”令人心生不安”之间的感受开始浮现。愉悦,是因为他只是提出要求,然后事情就发生了;不安,原因同样简单——他只是提出要求,然后事情就发生了。为了理解这种不安从何而来,需要仔细观察Fable 完成工作的方式。
案例一:等时线地图——一个指令,调动十余个子智能体
等时线地图是一种显示从某地出发在特定时间内可到达范围的地图工具,首张等时线地图于1881年由 Francis Galton 绘制,以伦敦为起点展示旅行时间。此前的 AI 模型中,没有任何一款能够在这项任务上做到哪怕勉强有用的程度——因为构建等时线地图涉及对数千种潜在行程距离的研究,以及大量微小的判断和决策。Mollick 决定在 Fable 上测试这个任务,通过Claude Code 输入了以下提示词:i want you to build a fully researched and beautiful isochronic map that lets me pick various cities and see real isochronic lines based on real data. I want the design to be unique. You should take into account airports (and travel time to and from airports) trains, walking, driving. The data does not need to be live but should be real based on your research and data. You can start with a few cities but more general is better, this should be an entirely new project.Fable 随后建议以1881年原始地图的风格来呈现这一作品。Mollick同意后,Fable 便开始了工作。值得花时间仔细审视 Fable 独自完成这个多小时构建任务的完整记录,因为其中出现了一些不寻常的行为。首先,Fable 自主启动多个其他 AI(据 Mollick 判断,主要是更便宜的Claude Sonnet)来协助进行出行时间的研究,最终获取了超过2200个特定航班的时刻表数据,以及从法国 TGV 高速铁路到日本新干线的列车时刻表,还有来自多篇学术论文的各国公路限速数据。而在这些子 Agent 持续运行的同时,Fable的主线程开始了编程工作。随后它又启动了更多的 Agent 和测试程序来验证代码,整个过程中还不忘记录进度笔记。最终产出是一张功能完整、相当精密的等时线地图,外观与1881年的原始地图颇为神似。但这并不意味着它完美无缺。Mollick 注意到,许多偏远地区(如格陵兰)只包含了估算的出行时间,而非精确数据。于是他要求 Fable 进行修正,并给出了具体指示:获取通往偏远机场和地点的真实出行时间。这一次,Fable 启动了一种对抗性工作流——由多个互相独立的 Agent 小组分别进行研究,并对彼此的结果进行交叉验证。它最终推算出了前往太平洋皮特凯恩岛的船班频率,以及从渥太华到格里塞峡的路线。而且它在极短的时间内消耗了数量惊人的 Token。结果令人印象深刻。Mollick 在后续又推进了几个自己感兴趣的改进方向(包括要求其他可视化方案等)。建议读者花几分钟时间在[这张交互式地图](https://isochronic-passage-chart.netlify.app/#nyc)上随意点击探索,同时可以阅读图表底部的方法说明和数据来源。这个项目对你可能并没有特别的实用价值——除非你真正热爱旅行和地图。但它充分说明 AI 能够解决的问题涵盖了研究、数学、视觉开发、品味、判断力、复杂编程等多个维度。而真正令人心生不安的地方在于:Mollick 本人做的事情实在太少了。他给出了一个雄心勃勃的指令,AI 照单执行;他给出了几条少量的反馈意见,AI 自行解决了问题。他的角色极为有限。需要注意的是,这种”有限”不仅体现在他相对于模型所做的工作量上,还体现在他对模型如何运作、为何选择特定方案、以及结果深入程度等方面的控制权上。AI 的决策细节不会展示给用户,而且整个过程之长使其甚至不值得被追踪。构建这张地图要求 AI 对数百个细小的选择做出判断,而它径直做出了这些判断——不经过 Mollick 的理解,也不给他介入的机会。在许多方面,这既是”奇迹”(他总能在最后要求修改),同时也将 AI 变成了”终极黑箱”。
Mollick 在文章中提到的三款可体验游戏,或许可以作为读者亲自探索 Fable 能力边界的入口:一款是[以硬币翻转为核心机制的游戏](https://play-flipside.netlify.app/);一款是[自我意识觉醒版的贪吃蛇](https://snake-stable-build.netlify.app/);以及一款关于[深渊探索的游戏](https://strata-descent.netlify.app/)。每款游戏都仅通过一个初始提示词创建,其间 Mollick 只做了少量追加指令。但比这些游戏更值得每一个与 AI 协作的人认真思考的是:当你使用一个足够强大的 AI 时,你是在施咒,还是在委托?这两种模式的差异,决定了你以何种姿态进入人机协作的关系——是掌控过程的巫师,还是判断结果的委托人。没有答案,但这个问题本身值得被提出。当魔法在某个你无法窥见的角落上演,你需要学会的,是判断什么是奇迹,什么是幻觉。原文:What it feels like to work with Mythos – Ethan Mollickhttps://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos