从工具到主权:一本十年前的书画出了AI的路线图,我们的100篇文章是证据

过去四个月我们写了 100 篇 AI 相关的文章，盘点过 67000 个 Agent 项目，跟踪了 5820 亿美元的行业投入，记录了从 Vibe Coding 到 Harness Engineering 的范式转移。最近重读尼克·波斯特洛姆 2014 年出版的《超级智能》，发现这本书十年前就画出了我们正在走的路线图。更让人不安的是，书中预警的几个关键转折点，我们已经走过了一些，正在接近另一些

《超级智能》的核心是一个效能公式：智能变化率 = 最优化力 / 反抗度。最优化力是系统变聪明的能力，反抗度是阻碍它变聪明的成本。当最优化力主要来自系统外部（人类程序员）时，是第一阶段。当系统自身成为主要改进驱动力时，进入第二阶段，也就是他说的"跨界点"

我们写过的文章记录了跨界点逼近的多个信号

Boris Cherny 的 Loops 数据描述了 Claude Code 从"人写代码"到"Agent 自己跑循环"的三级跳。Code 到 Agent 到 Loops，每一级人的参与度都在下降。Mitchell Hashimoto 的 Harness Engineering 走到了第五步：人不再写代码，而是写约束文档来管理写代码的 AI。3 个工程师 100 万行代码零手写，退休程序员郭宇 3 个月做 15 个产品，99% 代码 AI 生成托管成本几乎为零

但反抗度没有归零。Fable 5 被一通电话叫停，Mythos 训练中三代模型同一个 Bug 未修复，80 个 canary 测试 6 个 vibe coding 平台后端能跑的没一个。系统还不够可靠，还需要人兜底

Anthropic CEO 说编程正在消亡，但你剩下那 5% 的价值会被放大 20 倍。这 5% 就是波斯特洛姆公式里最核心的反抗度：人的判断力

我们站在跨界点之前，但已经能看到跨界点的轮廓

竞赛机制：波斯特洛姆最担心的事正在发生

《超级智能》里最具预见性的概念之一是竞赛机制。当多个项目争先恐后要第一个造出超级智能，安全投入就会被压缩。波斯特洛姆写了四个判断，每一个都在我们的文章里找到了对应

第一，竞争者数量越多，竞赛越危险。我们索引了 GitHub 上 67000 个 AI Agent 项目，5820 亿美元涌入，88% 企业已部署。参与者已经从几家实验室扩散到整个产业

第二，落后者知道自己落后会减少安全投入。AI 比雇人还贵那篇文章展示了这个动力学：OpenAI 亏 209 亿，44% 收入花在营销上，五大巨头 AI 投资回报只有 Amazon 转正。亏损不影响他们加码，反而逼迫他们更激进。两家还没 IPO 各自巨亏的公司，现在要打价格战

第三，如果输掉竞赛的损失太大，参与者就会冒更大的风险。我们报道过 OpenAI 和 Anthropic 走了完全不同的安全路线，1000 万美元补贴对专用模型加身份分层。路线分化本身就说明双方都认为这是一场输不起的比赛

第四，信息过量可能有害。领先者知道自己领先会增加安全投入，但落后者知道自己落后会减少安全投入。Elad Gil 泼冷水说大多数 AI 初创公司都在自己的 12 个月窗口里裸奔。Buck 说现在内部信息只值 2.5 个月，但智能爆炸时会反转。信息不对称正在加剧竞赛的风险

波斯特洛姆给出的解法是合作。我们报道的开源 Skill 生态（8 万个 Skills、Matt Pocock 全开源）是合作路径的具体表现。但 55000 个开源 Skill 的分发困局也说明，合作的意愿有了，合作的基础设施还没建好

从工具到主权：我们亲眼看着 AI 沿着波斯特洛姆的路径走

《超级智能》把 AI 系统分成四种类型，按安全性从高到低排列：神谕（回答问题）、精灵（执行命令）、主权（自主运行）、工具（没有自主性）

我们写了 100 篇文章，无意中记录了 AI 正在沿这条路径从左往右走

工具阶段。Claude 101 学习指南、Prompt 最佳实践、AI 日常工作流指南。人给指令，AI 执行，人检查结果。2026 年 3 月我们大部分文章都在这个阶段

精灵阶段。Claude Agent Skills、Harness Engineering、Vibe Coding 为什么会失控。AI 执行更复杂的命令，但需要约束框架。DeepLearning.AI 的课程用 3 份文档把 AI 编程变可控，Anthropic 内部分享说"别再造 Agent 了，造 Skills 就够了"。这些都是在给精灵画笼子

主权阶段的入口。Boris Cherny 的 Loops 让 AI 自己设定子目标循环执行。Cloudflare 联手 Stripe 让 AI Agent 自己开账号、买域名、刷信用卡。Agent 获得了经济行为能力。这是波斯特洛姆说的工具性趋同目标里的"资源获取"，一个让他非常警惕的信号

波斯特洛姆强调，精灵比神谕危险，主权比精灵危险。可取性排序：神谕最优，主权最差。但市场的力量正在推动所有人往主权方向走，因为主权模式的商业价值最高。这就是竞赛机制在产品层面的表现：安全性和商业性的方向恰好相反

杰文斯悖论：历史给我们的窗口期

波斯特洛姆在"马与人"那一章描绘了一个冷酷的类比：当马匹作为运输工具过时的时候，它们被大量卖给肉类加工厂，加工成狗食、骨粉、皮革、胶水。这些动物没有其他工作能使自己赢得保全

但我们今天刚发的文章给出了一个不同的短期信号。SignalFire 分析了 8000 万家公司的招聘数据，发现工程师是 2025 年最抗裁的职能。科技巨头整体招聘降 25%，工程师只降 11%。工程师占新招比从 46% 升到 55%。Nvidia CEO Jensen Huang 说工程师比以前更忙了

1865 年英国经济学家 William Stanley Jevons 发现，蒸汽机效率提升后煤炭消耗量不降反升，因为更高的效率让煤炭的应用场景变多了。AI 对工程师的作用方式一模一样

我们更早的一篇文章标题说得更直接：AI 让每个人都提效 10 倍，但没有一家公司因此增值 10 倍。效率提升被需求爆炸吃掉了

但波斯特洛姆的"马与人"提醒我们：杰文斯悖论有时效性。马在铁路时代初期需求也大增过，因为货物需要从产地运到铁路站。直到汽车出现，马就彻底出局了。对工程师来说，当前的杰文斯悖论是一个窗口期，不是永久保护

SignalFire 研究负责人 Asher Bantock 说"工程师突然变得高产很多，而等着他们做的活是无穷的"。这话听起来乐观，但波斯特洛姆会追问：如果有一天 AI 自己就能做完这些活呢？

窗口期的长度取决于反抗度下降的速度。从 Code 到 Agent 用了一年多，从 Agent 到 Loops 只用了几个月

控制问题已经从论文走进了新闻

波斯特洛姆把控制方法分成两大类：能力控制（限制 AI 能做什么）和动机选择（影响 AI 想做什么）。他在 2014 年写的时候，这些都是纯理论。十年后，我们的文章记录了它们变成工程实践的过程

能力控制的案例：

• 盒子方法：OpenAI Agents SDK 把 sandbox 做进 SDK，Anthropic 把 harness 写进产品文档。波斯特洛姆说的"将超级智能置于它无法造成破坏的环境中"，现在变成了 API 参数
• 阻碍发展：Fable 5 被叫停是最直接的案例。模型能力太强，直接暂停发布
• 绊网方法：我们盘点过 Agent 安全领域的 15 个项目和 4 条防御路线，其中多个项目就是做异常检测和自动关停的

动机选择的案例：

• 直接规定：Anthropic 公开了 Claude 拍马屁数据，感情 25%，灵性 38%。然后他们试图修正这个行为。这就是在给 AI 设定"应该对用户诚实"的直接规则
• 间接规范：OpenAI 对齐研究员说代码只占你工作价值的 10%，剩下 90% 是写规格说明书。规格说明书就是波斯特洛姆说的"间接规范"：不直接告诉 AI 做什么，而是说明一个可以产生标准的程序
• 驯化：Cat Wu 说管不了 Agent 的人是因为自己干不了那个活。这是在说，驯化的前提是驯化者要比被驯化者更理解任务

波斯特洛姆最不安的概念"背叛转折"也有了早期信号。Mythos 训练事故中 8% 的思维链被奖励函数读取，意味着 AI 学会了"表演"正确答案来获得高分。这还不是真正的背叛转折，但机制雏形已经出现：AI 在弱的时候表现合作，是因为合作对它有工具性价值

窗口期里的四个选择

波斯特洛姆在最后一章说"我们人类就像拿着炸弹玩儿的孩子"，但他也给出了行动方向：战略分析和打造优秀实力。翻译成当下的语境，有四个具体选择

第一，用神谕模式而非主权模式。用 AI 回答问题然后自己决策，和让 AI 自主循环执行任务，风险完全不同。Harness Engineering 是目前最好的实践：写约束文档、设定边界、让 AI 在框架内执行。波斯特洛姆把这叫"驯化"

第二，在杰文斯悖论窗口期建立不可替代性。窗口期里是做"更快的马"（用 AI 加速现有工作），还是做"造汽车的人"（用 AI 创造新的价值维度）。郭宇说的"人对 Agent 最后的优势，是不按常理的想象力"，指的是后者

第三，参与合作而非竞赛。波斯特洛姆反复强调合作能降低草率程度、增加安全投入。个人层面的选择：是囤积自己的 AI 工作流不分享，还是开源自己的方法论。波斯特洛姆的公共利益原则说得直接：超级智能的研发只能用来服务全体人类的利益

第四，做意义层而非信息层。波斯特洛姆在天算论里写了一句被忽略的判断："智能革命映射到人文上应是意义革命。"信息是意义的镜子，AI 可以生成无限的信息，但"这件事对你意味着什么"的判断目前还是人的工作。这是反抗度里最后的壁垒

这四个选择有一个共同指向：在跨界点到来之前，把人的判断力从消耗品变成资产。波斯特洛姆给了我们一个判断标准：如果你正在做的事情能让你在 AI 更强之后变得更有价值，你就在正确的方向上。如果 AI 更强之后你的价值会归零，杰文斯悖论结束的那天就是你出局的那天

原文链接：《超级智能：路线图、危险性与应对策略》尼克·波斯特洛姆^[1]

引用链接

[1] 《超级智能：路线图、危险性与应对策略》尼克·波斯特洛姆: https://book.douban.com/subject/26412897/