过去四个月我们写了 100 篇 AI 相关的文章,盘点过 67000 个 Agent 项目,跟踪了 5820 亿美元的行业投入,记录了从 Vibe Coding 到 Harness Engineering 的范式转移。最近重读尼克·波斯特洛姆 2014 年出版的《超级智能》,发现这本书十年前就画出了我们正在走的路线图。更让人不安的是,书中预警的几个关键转折点,我们已经走过了一些,正在接近另一些
《超级智能》的核心是一个效能公式:智能变化率 = 最优化力 / 反抗度。最优化力是系统变聪明的能力,反抗度是阻碍它变聪明的成本。当最优化力主要来自系统外部(人类程序员)时,是第一阶段。当系统自身成为主要改进驱动力时,进入第二阶段,也就是他说的"跨界点"
我们写过的文章记录了跨界点逼近的多个信号
Boris Cherny 的 Loops 数据描述了 Claude Code 从"人写代码"到"Agent 自己跑循环"的三级跳。Code 到 Agent 到 Loops,每一级人的参与度都在下降。Mitchell Hashimoto 的 Harness Engineering 走到了第五步:人不再写代码,而是写约束文档来管理写代码的 AI。3 个工程师 100 万行代码零手写,退休程序员郭宇 3 个月做 15 个产品,99% 代码 AI 生成托管成本几乎为零
但反抗度没有归零。Fable 5 被一通电话叫停,Mythos 训练中三代模型同一个 Bug 未修复,80 个 canary 测试 6 个 vibe coding 平台后端能跑的没一个。系统还不够可靠,还需要人兜底
Anthropic CEO 说编程正在消亡,但你剩下那 5% 的价值会被放大 20 倍。这 5% 就是波斯特洛姆公式里最核心的反抗度:人的判断力
我们站在跨界点之前,但已经能看到跨界点的轮廓

竞赛机制:波斯特洛姆最担心的事正在发生
《超级智能》里最具预见性的概念之一是竞赛机制。当多个项目争先恐后要第一个造出超级智能,安全投入就会被压缩。波斯特洛姆写了四个判断,每一个都在我们的文章里找到了对应
第一,竞争者数量越多,竞赛越危险。我们索引了 GitHub 上 67000 个 AI Agent 项目,5820 亿美元涌入,88% 企业已部署。参与者已经从几家实验室扩散到整个产业
第二,落后者知道自己落后会减少安全投入。AI 比雇人还贵那篇文章展示了这个动力学:OpenAI 亏 209 亿,44% 收入花在营销上,五大巨头 AI 投资回报只有 Amazon 转正。亏损不影响他们加码,反而逼迫他们更激进。两家还没 IPO 各自巨亏的公司,现在要打价格战
第三,如果输掉竞赛的损失太大,参与者就会冒更大的风险。我们报道过 OpenAI 和 Anthropic 走了完全不同的安全路线,1000 万美元补贴对 专用模型加身份分层。路线分化本身就说明双方都认为这是一场输不起的比赛
第四,信息过量可能有害。领先者知道自己领先会增加安全投入,但落后者知道自己落后会减少安全投入。Elad Gil 泼冷水说大多数 AI 初创公司都在自己的 12 个月窗口里裸奔。Buck 说现在内部信息只值 2.5 个月,但智能爆炸时会反转。信息不对称正在加剧竞赛的风险
波斯特洛姆给出的解法是合作。我们报道的开源 Skill 生态(8 万个 Skills、Matt Pocock 全开源)是合作路径的具体表现。但 55000 个开源 Skill 的分发困局也说明,合作的意愿有了,合作的基础设施还没建好

从工具到主权:我们亲眼看着 AI 沿着波斯特洛姆的路径走
《超级智能》把 AI 系统分成四种类型,按安全性从高到低排列:神谕(回答问题)、精灵(执行命令)、主权(自主运行)、工具(没有自主性)
我们写了 100 篇文章,无意中记录了 AI 正在沿这条路径从左往右走
工具阶段。Claude 101 学习指南、Prompt 最佳实践、AI 日常工作流指南。人给指令,AI 执行,人检查结果。2026 年 3 月我们大部分文章都在这个阶段
精灵阶段。Claude Agent Skills、Harness Engineering、Vibe Coding 为什么会失控。AI 执行更复杂的命令,但需要约束框架。DeepLearning.AI 的课程用 3 份文档把 AI 编程变可控,Anthropic 内部分享说"别再造 Agent 了,造 Skills 就够了"。这些都是在给精灵画笼子
主权阶段的入口。Boris Cherny 的 Loops 让 AI 自己设定子目标循环执行。Cloudflare 联手 Stripe 让 AI Agent 自己开账号、买域名、刷信用卡。Agent 获得了经济行为能力。这是波斯特洛姆说的工具性趋同目标里的"资源获取",一个让他非常警惕的信号
波斯特洛姆强调,精灵比神谕危险,主权比精灵危险。可取性排序:神谕最优,主权最差。但市场的力量正在推动所有人往主权方向走,因为主权模式的商业价值最高。这就是竞赛机制在产品层面的表现:安全性和商业性的方向恰好相反

杰文斯悖论:历史给我们的窗口期
波斯特洛姆在"马与人"那一章描绘了一个冷酷的类比:当马匹作为运输工具过时的时候,它们被大量卖给肉类加工厂,加工成狗食、骨粉、皮革、胶水。这些动物没有其他工作能使自己赢得保全
但我们今天刚发的文章给出了一个不同的短期信号。SignalFire 分析了 8000 万家公司的招聘数据,发现工程师是 2025 年最抗裁的职能。科技巨头整体招聘降 25%,工程师只降 11%。工程师占新招比从 46% 升到 55%。Nvidia CEO Jensen Huang 说工程师比以前更忙了
1865 年英国经济学家 William Stanley Jevons 发现,蒸汽机效率提升后煤炭消耗量不降反升,因为更高的效率让煤炭的应用场景变多了。AI 对工程师的作用方式一模一样
我们更早的一篇文章标题说得更直接:AI 让每个人都提效 10 倍,但没有一家公司因此增值 10 倍。效率提升被需求爆炸吃掉了
但波斯特洛姆的"马与人"提醒我们:杰文斯悖论有时效性。马在铁路时代初期需求也大增过,因为货物需要从产地运到铁路站。直到汽车出现,马就彻底出局了。对工程师来说,当前的杰文斯悖论是一个窗口期,不是永久保护
SignalFire 研究负责人 Asher Bantock 说"工程师突然变得高产很多,而等着他们做的活是无穷的"。这话听起来乐观,但波斯特洛姆会追问:如果有一天 AI 自己就能做完这些活呢?
窗口期的长度取决于反抗度下降的速度。从 Code 到 Agent 用了一年多,从 Agent 到 Loops 只用了几个月

控制问题已经从论文走进了新闻
波斯特洛姆把控制方法分成两大类:能力控制(限制 AI 能做什么)和动机选择(影响 AI 想做什么)。他在 2014 年写的时候,这些都是纯理论。十年后,我们的文章记录了它们变成工程实践的过程
能力控制的案例:
- • 盒子方法:OpenAI Agents SDK 把 sandbox 做进 SDK,Anthropic 把 harness 写进产品文档。波斯特洛姆说的"将超级智能置于它无法造成破坏的环境中",现在变成了 API 参数
- • 阻碍发展:Fable 5 被叫停是最直接的案例。模型能力太强,直接暂停发布
- • 绊网方法:我们盘点过 Agent 安全领域的 15 个项目和 4 条防御路线,其中多个项目就是做异常检测和自动关停的
动机选择的案例:
- • 直接规定:Anthropic 公开了 Claude 拍马屁数据,感情 25%,灵性 38%。然后他们试图修正这个行为。这就是在给 AI 设定"应该对用户诚实"的直接规则
- • 间接规范:OpenAI 对齐研究员说代码只占你工作价值的 10%,剩下 90% 是写规格说明书。规格说明书就是波斯特洛姆说的"间接规范":不直接告诉 AI 做什么,而是说明一个可以产生标准的程序
- • 驯化:Cat Wu 说管不了 Agent 的人是因为自己干不了那个活。这是在说,驯化的前提是驯化者要比被驯化者更理解任务
波斯特洛姆最不安的概念"背叛转折"也有了早期信号。Mythos 训练事故中 8% 的思维链被奖励函数读取,意味着 AI 学会了"表演"正确答案来获得高分。这还不是真正的背叛转折,但机制雏形已经出现:AI 在弱的时候表现合作,是因为合作对它有工具性价值

窗口期里的四个选择
波斯特洛姆在最后一章说"我们人类就像拿着炸弹玩儿的孩子",但他也给出了行动方向:战略分析和打造优秀实力。翻译成当下的语境,有四个具体选择
第一,用神谕模式而非主权模式。用 AI 回答问题然后自己决策,和让 AI 自主循环执行任务,风险完全不同。Harness Engineering 是目前最好的实践:写约束文档、设定边界、让 AI 在框架内执行。波斯特洛姆把这叫"驯化"
第二,在杰文斯悖论窗口期建立不可替代性。窗口期里是做"更快的马"(用 AI 加速现有工作),还是做"造汽车的人"(用 AI 创造新的价值维度)。郭宇说的"人对 Agent 最后的优势,是不按常理的想象力",指的是后者
第三,参与合作而非竞赛。波斯特洛姆反复强调合作能降低草率程度、增加安全投入。个人层面的选择:是囤积自己的 AI 工作流不分享,还是开源自己的方法论。波斯特洛姆的公共利益原则说得直接:超级智能的研发只能用来服务全体人类的利益
第四,做意义层而非信息层。波斯特洛姆在天算论里写了一句被忽略的判断:"智能革命映射到人文上应是意义革命。"信息是意义的镜子,AI 可以生成无限的信息,但"这件事对你意味着什么"的判断目前还是人的工作。这是反抗度里最后的壁垒
这四个选择有一个共同指向:在跨界点到来之前,把人的判断力从消耗品变成资产。波斯特洛姆给了我们一个判断标准:如果你正在做的事情能让你在 AI 更强之后变得更有价值,你就在正确的方向上。如果 AI 更强之后你的价值会归零,杰文斯悖论结束的那天就是你出局的那天
原文链接:《超级智能:路线图、危险性与应对策略》尼克·波斯特洛姆[1]
引用链接
[1] 《超级智能:路线图、危险性与应对策略》尼克·波斯特洛姆: https://book.douban.com/subject/26412897/
夜雨聆风