乐于分享
好东西不私藏

12小时、19页文档、2200个航班:与最强AI协作的真实体验

12小时、19页文档、2200个航班:与最强AI协作的真实体验

六月的一个深夜,Ethan Mollick 向一个新系统下达了一个模糊的指令:做一张等时线地图。十二小时后,他收到了一份包含超过2200个航班时刻表、覆盖铁路与公路数据的完整地图文件。他几乎没有做任何事。这位宾夕法尼亚大学沃顿商学院的副教授,去年曾将人机协作比作”与巫师共事”——你念动咒语,某事便发生了。但这一次,他不确定自己是否还扮演着巫师这个角色。
Mollick 获得了首批进入公开市场的 Mythos 系列模型——Claude 5 Fable 的提前访问权限。关于 Mythos 的大部分讨论都集中在它对软件安全的影响,但 Mollick 测试了除网络安全以外的所有应用场景。他的结论是:Fable 代表了相比此前所有他使用过的模型的实质性飞跃,而更重要的是,它表明人类与 AI 的关系正在发生根本性的变化。

能力是真实的

先说能力。在 Mollick 进行的每一项实验中,Fable 都以相当大的优势超越了其他所有公开模型。它能够持续工作十余小时,执行多页规格说明书级别的任务,产出的结果令人惊讶。以下是他测试过的一些具体案例。
它从一个提示词加一次反馈中,生成了”迄今所见最成熟的 AI 学术社会科学论文”。它还创作了一部十页长的押韵史诗,主题关于理发,且全文每个单词均以字母 s 开头。此外,Mollick 还让 Fable 创建了一批可直接体验的游戏——全部基于他在 Claude Code中输入的一个初始提示词,随后只有两三次追加提示词,内容无非是”让它更好一点”或给出少量反馈。由于 Claude 无法生成图片,所有游戏美术和 3D 对象均通过纯数学计算完成,没有使用任何外部素材。这批游戏中包括:一款以硬币翻转为核心机制的类 Roguelike 游戏(提示词为”Balatro,但换成硬币翻转游戏”),游戏体验相当有趣;一款自我意识觉醒版的贪吃蛇游戏,蛇在获得自我意识后发生各种异象;以及一款探索深渊的游戏。
然而,随着 Mollick 将 Fable 应用于更加严肃的项目,一个介于”令人愉悦”与”令人心生不安”之间的感受开始浮现。愉悦,是因为他只是提出要求,然后事情就发生了;不安,原因同样简单——他只是提出要求,然后事情就发生了。
为了理解这种不安从何而来,需要仔细观察Fable 完成工作的方式。

案例一:等时线地图——一个指令,调动十余个子智能体

等时线地图是一种显示从某地出发在特定时间内可到达范围的地图工具,首张等时线地图于1881年由 Francis Galton 绘制,以伦敦为起点展示旅行时间。此前的 AI 模型中,没有任何一款能够在这项任务上做到哪怕勉强有用的程度——因为构建等时线地图涉及对数千种潜在行程距离的研究,以及大量微小的判断和决策。
Mollick 决定在 Fable 上测试这个任务,通过Claude Code 输入了以下提示词:
i want you to build a fully researched and beautiful isochronic map that lets me pick various cities and see real isochronic lines based on real data. I want the design to be unique. You should take into account airports (and travel time to and from airports) trains, walking, driving. The data does not need to be live but should be real based on your research and data. You can start with a few cities but more general is better, this should be an entirely new project.
Fable 随后建议以1881年原始地图的风格来呈现这一作品。Mollick同意后,Fable 便开始了工作。
值得花时间仔细审视 Fable 独自完成这个多小时构建任务的完整记录,因为其中出现了一些不寻常的行为。首先,Fable 自主启动多个其他 AI(据 Mollick 判断,主要是更便宜的Claude Sonnet)来协助进行出行时间的研究,最终获取了超过2200个特定航班的时刻表数据,以及从法国 TGV 高速铁路到日本新干线的列车时刻表,还有来自多篇学术论文的各国公路限速数据。而在这些子 Agent 持续运行的同时,Fable的主线程开始了编程工作。随后它又启动了更多的 Agent 和测试程序来验证代码,整个过程中还不忘记录进度笔记。
最终产出是一张功能完整、相当精密的等时线地图,外观与1881年的原始地图颇为神似。但这并不意味着它完美无缺。Mollick 注意到,许多偏远地区(如格陵兰)只包含了估算的出行时间,而非精确数据。于是他要求 Fable 进行修正,并给出了具体指示:获取通往偏远机场和地点的真实出行时间。这一次,Fable 启动了一种对抗性工作流——由多个互相独立的 Agent 小组分别进行研究,并对彼此的结果进行交叉验证。它最终推算出了前往太平洋皮特凯恩岛的船班频率,以及从渥太华到格里塞峡的路线。而且它在极短的时间内消耗了数量惊人的 Token。
结果令人印象深刻。Mollick 在后续又推进了几个自己感兴趣的改进方向(包括要求其他可视化方案等)。建议读者花几分钟时间在[这张交互式地图](https://isochronic-passage-chart.netlify.app/#nyc)上随意点击探索,同时可以阅读图表底部的方法说明和数据来源。
这个项目对你可能并没有特别的实用价值——除非你真正热爱旅行和地图。但它充分说明 AI 能够解决的问题涵盖了研究、数学、视觉开发、品味、判断力、复杂编程等多个维度。而真正令人心生不安的地方在于:Mollick 本人做的事情实在太少了。他给出了一个雄心勃勃的指令,AI 照单执行;他给出了几条少量的反馈意见,AI 自行解决了问题。他的角色极为有限。
需要注意的是,这种”有限”不仅体现在他相对于模型所做的工作量上,还体现在他对模型如何运作、为何选择特定方案、以及结果深入程度等方面的控制权上。AI 的决策细节不会展示给用户,而且整个过程之长使其甚至不值得被追踪。构建这张地图要求 AI 对数百个细小的选择做出判断,而它径直做出了这些判断——不经过 Mollick 的理解,也不给他介入的机会。在许多方面,这既是”奇迹”(他总能在最后要求修改),同时也将 AI 变成了”终极黑箱”。

案例二:Concord——从零开始,9.5小时生成19页设计文档

Mollick 从 Fable 获得的最具雄心的项目,需要更多背景交代才能充分理解。他所做的许多研究中,人类会产生大量模糊的答案,对这些答案进行任何形式的分析都需要首先对答案进行恰当的分类:某个想法有多大的创新性?人们为什么喜欢这本书?要回答这类问题,传统做法依赖人类研究者对每条信息做出判断性评估,然后通过统计方法将他们的回答与其他研究者的回答进行比较,以确定数据是否可信。近年来的大量研究表明,AI 可能也能够承担这项重要工作,但将AI 与人类判断进行校准的过程既困难又昂贵。于是Mollick 让 Fable 从零开始解决这个问题——它首先生成了一份复杂的19页设计文档,随后执行了这个方案。
它工作了九个小时。
最终产出是一款极为精密的软件,Fable将其命名为 Concord。Concord 能够接收多个数据集,对人类与 AI 的响应进行校准,然后对结果执行复杂的数据分析。同样,它也并非完美无缺。作为领域专家,Mollick 能够发现其中存在的一些错误和遗漏(其中部分源于他最初提出的设计方案),他将这些问题反馈给 Fable,由 AI 自主修正。但这个项目——以及许多其他项目——的交付规模,超越了 Mollick 此前所见的任何东西。在他的判断中,这是一款研究界多年以来一直有需求、却因缺乏商业价值而从未被开发出来的软件。相关代码现已在 GitHub 开源。Mollick 认为这套代码并非完美无缺(他只花了一个小时与产出结果打交道),但软件工程师能够解决他无法快速发现的那部分潜在 bug——这也正是未来可能需要更多、而非更少程序员的理由之一:AI 产出软件的爆炸式增长将创造出大量处理新需求的工作岗位。

从”巫师”到”委托人”

这种力量伴随着某种陌生感和局限性一并出现。局限性之一是 Token 消耗:Fable 的成本是 Opus 的两倍,其 Token 消耗速度意味着实际生产环境中的答案是”相当昂贵”,不过它对更便宜模型的巧妙调用可能在很大程度上降低实际费用。Fable 的安全护栏也极为敏感,一旦检测到任何与安全相关的暗示便会自动降级至能力较弱的Claude 4.8 Opus,而这种情况发生的频率超出了合理范围。此外,”参差不齐的前沿”仍然存在:例如,AI 的写作仍然带有同一种奇怪的语言风格(事实上 Fable 产出的软件中也残留着”克劳德式”表达特征;它的进度报告亦是如此——那种厚重的语感与确定的语气贯穿始终)。但更深层的陌生感来自 Mollick 发现自己所做的事如此之少,以及在 AI 运作的过程中他能看到的也如此之少。
去年,Mollick 曾将这种人机协作比作”[与巫师共事](https://www.oneusefulthing.org/p/on-working-with-wizards)”:你念动咒语,某事便发生了。但在 Fable 上,咒语已经变得足够强大,以至于他不再确定自己是否还扮演着巫师的角色。他更像一个委托人。他描述他想要的,他为此付费,他判断结果。魔法在某个他无法窥见的角落上演,数百个他从未投票的小决策贯穿其中。工作已从”过程”转变为”结果”。他不再掌舵;他只是委托。
这并不意味着失去控制——至少不是通常意义上的失控。Mollick 仍然能够驾驭 Fable,而且它的指令遵循能力令人瞩目:指令的雄心程度越高,产出的结果就越出色。但”驾驭”已不再等同于”做事”。他向模型做简报,模型启动自己的子 Agent 来研究、写作、互相检查工作,最后交付的是成品。委托人委托的是一位艺术家,而 Fable 更像是一整间工作室,Mollick是那个在最终成果上签字的客户,却从未踏进工作室的地面一步。
也有可能这种人机边界的退让只是暂时的——仅是界面设计尚未跟上时代的产物,未来或许会出现更完善的窗口让人们了解模型在做什么,以及更有效的方法在任务中途进行引导。但另一种可能性同样存在:模型的能力越强,人类能够真正有意义地参与的空间就越小,而”黑箱”可能就是这种强大能力的内生代价。Mollick 倾向于认为后者更可能是真实的方向。

互动体验与延伸问题

Mollick 在文章中提到的三款可体验游戏,或许可以作为读者亲自探索 Fable 能力边界的入口:一款是[以硬币翻转为核心机制的游戏](https://play-flipside.netlify.app/);一款是[自我意识觉醒版的贪吃蛇](https://snake-stable-build.netlify.app/);以及一款关于[深渊探索的游戏](https://strata-descent.netlify.app/)。每款游戏都仅通过一个初始提示词创建,其间 Mollick 只做了少量追加指令。
但比这些游戏更值得每一个与 AI 协作的人认真思考的是:当你使用一个足够强大的 AI 时,你是在施咒,还是在委托?这两种模式的差异,决定了你以何种姿态进入人机协作的关系——是掌控过程的巫师,还是判断结果的委托人。没有答案,但这个问题本身值得被提出。当魔法在某个你无法窥见的角落上演,你需要学会的,是判断什么是奇迹,什么是幻觉。
原文:
What it feels like to work with Mythos – Ethan Mollick
https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos