AI 折腾史(五):Agent 的觉醒——从贾维斯梦到 Harness 挽具

人人都想要一个贾维斯。直到它真的开始动你的键盘——你往后跳了一步。

哈喽，我是张量轨道。

第一期，我们看着一群天才试图用 If-Else 穷尽世界，撞上了莫拉维克悖论——猫都认不出来，还谈什么智能。第二期，被学界判了死刑的连接主义，靠一把"本来用来打游戏的芯片"翻了盘——GPU 暴力美学碾碎了所有质疑。第三期，Transformer 用"注意力"炸掉了 RNN 的串行锁链——每个字同时看所有字，GPU 的几千个小核心终于不用嗑瓜子看戏了。第四期，模型越训越大，显存却纹丝不动——于是工程师们操起量化的铡刀，把小数点后"你根本感知不到的精度"一刀刀砍掉，硬把数据中心塞进了笔记本。

四期文章，画了一条清晰的主线：AI 是怎么从零开始，一步步把"脑子"做出来的。

但脑子不是终点。脑子只是起点。

真正刺激的故事，发生在脑子被装上手脚以后。

猫站在厨房门口，爪子上挂着一串钥匙。微波炉、烤箱、燃气灶——所有设备都亮着待机灯。

（一）

人人都想要一个贾维斯

2008 年，第一部《钢铁侠》上映。托尼·斯塔克在他那个面朝太平洋的马里布豪宅里，用一种漫不经心的语气说了一句："Jarvis，把今天的行程调出来。"

然后一个英国口音的 AI 管家——你看不到它，但它无处不在——帮他控制家里的灯光、调配战甲的武器系统、甚至在他宿醉的时候提醒他开会。斯塔克进工作室，手一挥，全息投影铺开。他一边喝咖啡一边对着空气说话，Jarvis 在背景里默默完成了一百件事。

这个画面，在接下来的十几年里，成了整个科技行业最顽固的执念。

Google 在做 Google Assistant 的时候，内部立过一个 flag："我们要做每个人的 Jarvis。"Siri 背后的团队对着同一个目标发过誓。Alexa、小爱同学、天猫精灵——本质上都是"贾维斯梦"的不同版本。

但所有人很快发现了一件事。这些产品，本质上都只是把"手机上的按钮"换成了"对着音箱喊的话"。你说"打开客厅的灯"，它做了。你说"讲个笑话"，它讲了。你说"为什么我的房贷利率这么高"——它沉默了。

它们有耳朵和嘴巴，但没有脑子。它们能执行指令，但不能理解意图。它们是只读设备——听得见你的声音，碰不到你的世界。

十五年过去，贾维斯依然只是电影里的特效。

直到 2022 年 11 月，ChatGPT 上线。

上：钢铁侠的全息实验室，Jarvis 环绕。下：你站在客厅对着智能音箱吼了三遍"打开客厅的灯"。

（二）

三年军备竞赛：六块拼图如何一块块就位

ChatGPT 不是贾维斯。它只有文字，没有手。但它做了一件之前所有 AI 助手都没做到的事：真正听懂了人话。

在这之后的整整三年里，全球大模型厂商陷入了一场疯狂的军备竞赛。每几个月，就有一块关键能力被点亮。每一次点亮，都让"贾维斯梦"离现实更近一步。而每一次点亮，都伴随着一个工厂商狠狠抽了另一个厂商一巴掌。

回过头看，Agent——能在你电脑上自己干活的那种 AI——不是谁发明的。它是这六块拼图集齐之后，自己从桌上站起来的。

第一块拼图：Chat（2022-2023）——AI 学会听懂人话

OpenAI 先把门炸开了。ChatGPT 上线两个月，用户破亿。全世界第一次体验到：你跟机器说话，不需要像下命令一样格式严谨——你可以用大白话、错别字、甚至颠三倒四的语序，它都能明白你在说什么。

这一步把交互的门槛拉到了零。但 ChatGPT 有一个致命的局限：它只能告诉你"应该怎么做"，不能自己去做。你问它"怎么改这个 Bug"，它能给你十行代码。但你得自己复制、粘贴、保存、跑测试。它是个军师，不是个士兵。

第二块拼图：上下文窗口（2023-2024）——AI 不再只有三秒记忆

早期的 ChatGPT，上下文只有 4096 个 token。什么意思？你跟它聊了五页纸，它已经把第一页忘了。你还指望它帮你改一个跨十几个文件的工程代码？它连你第二个文件的名字都记不住。

然后战争开打了。Anthropic 把 Claude 的上下文拉到 100K token——一本书都能塞进去了。Google 用 Gemini 1.5 Pro 直接炸到了 100 万 token。100 万 token 什么概念？《三体》三部曲全部丢进去，还有剩。一个中等规模的代码库，整个扔进去，它能全部读完再回答你的问题。

没有长上下文，Agent 就是一句空话。你没法让一个只有三秒记忆的金鱼帮你管理项目。

第三块拼图：多模态/世界模型（2024-2025）——AI 睁开了眼睛

Sora 生成的视频第一次亮相的时候，所有人都被震住了。不是因为它画面精美——而是因为它展现了某种对物理世界的理解。光线在墙上怎么反射，水泼出去怎么飞溅，一个人走过去之后椅子怎么留在地面上——这些细节不是"画出来"的，是模型自己"推导"出来的。

这意味着 AI 不再只是一个"文本处理器"。它开始理解三维空间、时间连续性和因果关系。这一步直接打通了"看懂屏幕"和"看懂世界"之间的壁垒。一个只能处理文字的 Agent，有一个只能看懂屏幕的 Agent——后者能干的事多了一个数量级。

Veo、Seedance、Kling——Google 的、字节的、快手的——一场视频生成的多国混战，把多模态能力从炫技推到了实用线以上。

前三块拼图（Chat、上下文、多模态）已经稳稳嵌在桌面上。后三块（推理链、Tool Use、Computer Use）正被 OpenAI、Anthropic、Google、DeepSeek 四只手同时争抢。

第四块拼图：推理链内置化（2024-2025）——AI 学会"先想清楚再说"

这是六块拼图中最不性感但也最关键的一块。

以前的模型，你问它一个复杂的数学问题，它张嘴就来——然后给你一个自信满满的错误答案。因为它被训练的方式是"下一个词最可能是什么"，不是"这个问题我该分几步推"。

OpenAI 的 o1 改变了这个范式（2024 年 9 月）。模型被训练成：回答之前，先在内部把推理步骤过一遍，推完了再开口。Anthropic 立刻跟进 extended thinking。两个月后，DeepSeek 推出 R1-Lite-Preview——首个公开叫板 o1 的中国推理模型。到 2025 年 1 月 R1 正式版开源，AIME 和 MATH 基准上和 o1 打得有来有回，完整的训练管线（SFT + RL）和思考过程全部公开。OpenAI 把推理链藏着掖着，DeepSeek 当着全行业的面演示了一遍"这玩意儿也能训，而且价格是你们的百分之一"。

这一块拼图极其关键——因为 Agent 的核心能力不是"回答"，是规划。Agent 面对的不是一个提问，是一个需要多步操作的任务。它要先判断"我需要什么信息"、"我要调用哪个工具"、"调完的结果对不对"、"不对的话换一种方法"。没有推理链内置化，Agent 就像一个没有前额叶的人——它能做事，但它在每一步之间没有"思考缓冲"。

第五块拼图：Tool Use / Function Calling（2023-2024）——AI 学会了伸手

这是 Agent 的神经反射弧。

早期的 ChatGPT，你问它"今天天气怎么样"，它告诉你一个虚构的温度——因为它根本没有查询天气的能力。而 Tool Use 改变了这件事：模型被训练成，当它判断某个问题需要的知识超过了它的训练数据时，它不再瞎编——而是主动说："我不知道，但我可以调用天气 API 帮你查。"

这不只是"会回答问题"和"会查工具"的区别。这是从被动到主动的切换。Tool Use 的本质，是模型被赋予了一种"自知之明"——它知道自己的能力边界在哪，并且在边界之外主动伸手。

Anthropic 的 MCP（Model Context Protocol）把 Tool Use 标准化了——更重要的是，它把每一个工具封装成了可插拔的Skill：你不再需要自己写胶水代码去接 API，只要装一个"数据库 Skill"、一个"浏览器 Skill"、一个"文件系统 Skill"，Agent 就自动知道怎么用它们。Google 的 A2A（Agent-to-Agent Protocol）更进一步——让多个 Agent 之间能互相调用。OpenAI 的 Codex CLI 则把 Tool Use 直接嵌入了命令行。三家在同一个方向上赛跑——不是比谁的模型更聪明，而是比谁的模型"手更长"。而 Skill 生态的爆发，才是"人人都能焊钳子"的真正基础。

第六块拼图：Computer Use（2025-2026）——AI 直接上手了

2025 年，Anthropic 放出了一个让行业原地愣住的能力：Claude 被训练成能直接操作电脑——不是通过 API 调用，而是像人一样看屏幕、移动光标、点击按钮、填写表单、滚动页面。

在此之前，所有 Agent 本质上都是"API 调用者"。它能调你给它授权的接口——发个 HTTP 请求、跑个命令、读个文件。但世界上绝大多数的软件和网站，并没有 API。你要让 AI 帮你填个网页表单？它做不到——因为它看不见那个表单。

Computer Use 打破了这面墙。AI 不再需要 API——它直接通过屏幕像素理解界面，通过光标和键盘操作界面。这意味着它能操作任何人类能操作的软件。不是理论上的——实际上的所有软件。

但这一步的意义，远不止"能力变强了"。Tool Use 时代，AI 走的是人类给它铺好的高速公路——API 接口是标准化的、输入输出是可预期的、出错了有明确的报错码。Computer Use 时代，AI 开着越野车直接冲进了泥土小路——没有任何接口规范，每一个像素都可能是一个陷阱，每一次点击都可能产生完全不可预测的连锁反应。不确定性不是线性增长，是指数级爆发。也是为什么后面 Harness 挽具工程师变得不可或缺——当猫不仅拿到了厨房钥匙，还学会了自己撬锁，你绑的那根绳必须比它的撬锁速度更快。

紧接着，Google 的 Mariner 也跟上了。OpenAI 的 Operator 也来了。三家在同一个赛道上各自开炮。2026 年初 DeepSeek 跟进开源。

六块拼图碎片——Chat、上下文、多模态、推理链、Tool Use、Computer Use——逐一嵌入齿轮骨架，一个泛着蓝光的 Agent 轮廓在硝烟中站起来。

六块拼图全部到位的那一天，Agent 自己从桌上站了起来。

它不需要谁去发明。它只是一个水到渠成的必然产物：脑子够聪明了（Chat + 推理链），记性够长了（上下文窗口），眼睛睁开了（多模态），手够长了（Tool Use + Computer Use）。

但这幅拼图背后，还有一个更深层的推手。

Scaling Law 正在逼近天花板。 2020 年 OpenAI 那篇论文说得很清楚：加参数、加数据、加算力，性能就往上走。所有人按这个公式狂飙了四年。GPT-4做到了约 1.8 万亿参数，DeepSeek-V4 推到了 1.6 万亿，Qwen3.5 一口气出了八个尺寸。但每一代参数翻倍的边际收益都在递减。到 2025-2026 年，几家头部厂商内部都已经意识到：纯靠堆参数换来的提升，正在被成本增速反超。

Scaling Law 这条"通天梯"到顶了，但用户对 AI 能力的期待远远没到顶。下一个维度的增长从哪来？全行业的答案出奇一致：不是更大的模型——是能自己动手干活的模型。 Agent 不是锦上添花，是 Scaling Law 见顶之后，整个行业被迫找到的"第二增长曲线"。

模型参数的增长曲线一头撞上 Scaling Law 的天花板。箭头急转——全行业转身扑向 Agent。

这解释了为什么 2025-2026 年，所有人都在卷 Agent。OpenAI 做 Codex CLI，Anthropic 做 Claude Code，Google 做 Mariner，Cursor、Windsurf、Devin 挤在中间——不是因为 Agent 这个想法突然变得很酷，而是因为除了 Agent，已经没有别的地方可以卷了。

（三）

OpenClaw：当全球极客开始给 AI 焊钳子

2025 年 11 月，奥地利一个叫 Peter Steinberger 的退休 iOS 工程师——之前把公司卖了大概一亿欧元那种退休——闲着没事干，花了一个周末写了个开源项目。这个项目的思路极其简单粗暴：给大模型接上一堆系统工具，让它能在你电脑上直接干活。

他给这个项目起了个名字，叫Clawdbot。Logo 是只小龙虾，一对粗壮的大钳子最抢眼——"Claw"（钳子），就是给 AI 装上能抓住世界的爪子。

这个几乎没做任何推广的周末项目，在 GitHub 上像野火一样烧了起来。因为它的体验和前几年所有的 AI 应用都不一样。以前的 ChatGPT，你问它"帮我查代码漏洞"——它回一段文字让你自己复制粘贴，它是军师、不是士兵。但 Clawdbot 不一样，它自己在终端里grep、分析、生成补丁、提交 PR——AI 第一次从"嘴炮"变成了"操作员"。

然后戏剧性的一幕来了。Anthropic 法务注意到这个名字——"Clawdbot"太像"Claude"了。律师函飞到 Steinberger 手里：改名。Steinberger 连夜改成Moltbot（龙虾蜕壳=重生），社区狂嘘——四十八小时后又改成OpenClaw。"Open"代表开源，"Claw"保留钳子基因。名字终于对了。

但 Anthropic 的律师函反而给 OpenClaw 浇了一桶汽油。被巨头发函？这在开源圈就是最好的广告。GitHub star 数以天为单位翻倍，到 2026 年初已超过 Linux 和 React 成为史上增长最快的项目——黄仁勋在摩根士丹利科技投资会上说它是"我们这个时代最重要的软件发布"，Linux 花了三十年，OpenClaw 三周就超过了。2 月中旬，Sam Altman 亲自官宣：Steinberger 加入 OpenAI，主导"下一代个人 Agent"。

中国开发者给它取了个精准到令人发指的外号："小龙虾"。不只是因为 logo。门槛极低——一个周末能自己焊一个；上手极爽——看它自己在终端干活有极客快感；但满手油污——权限报错、死锁、循环烧 token——你得自己擦。

OpenClaw 的爆火，证明了一件事：Agent 不是巨头实验室里的黑科技。它是任何会写`while` 循环的人都能手搓的扳手。

然后，几个月后，一桩泄露事件，把"Agent 就是工程"这个结论，盖棺定了论。

OpenClaw 的本体——赛博朋克机械小龙虾。一对巨螯分别钳住浏览器窗口和数据库服务器，虾须是疯狂延展的 USB 数据排线。

（三）

源码泄露：当 Claude Code 的底裤终于被扒光

OpenClaw 证明了 Agent 不神秘。但它只证明了一半——开源社区自己拼出来的 Agent 不神秘。那 Anthropic 花了几亿美元打造的 Claude Code 呢？那个能在你的代码库里自动定位 Bug、生成补丁、跑完整测试套件的"旗舰 Agent"呢？它背后是不是藏着什么社区还没破解的独门秘籍？

2026 年 3 月 30 日，答案以一种 Anthropic 绝对不想看到的方式，被端到了全世界的桌面上。

Anthropic 发布 Claude Code CLI v2.1.88 到 npm。一个打包失误——他们把调试用的 source map 文件也一起发上去了。59.8MB。51.2 万行 TypeScript 源码。1900 个源文件。全部暴露。

更刺激的是，同一周，Anthropic 的 CMS 系统也出了配置错误——近 3000 份内部资产被外泄，包括一个代号"Claude Mythos"（内部名 Capybara）的未发布模型草稿、CEO 闭门会议邀请名单和内部员工文档。

五天之内，两次泄露。媒体直接把这事叫做"AI 界的第一次核泄漏"。

全世界的开发者跳进这堆泄露的源码里，翻找那个被包装得神乎其神的"Agent 推理引擎"。

找到了。

一份长达几万字的XML 纯文本说明书。没有神经网络增强模块。没有强化学习的自我博弈引擎。没有"意图理解引擎"。

只有三条核心纪律，用各种措辞翻来覆去写了几百遍：

第一条：眼见为实。 "在你修改任何文件之前——哪怕只改一个标点——必须先用 Read 工具读一遍这个文件，确认它的当前内容和你记忆中的一致。不要相信你的训练记忆！你记住的可能是错的！"

第二条：先写日记再动手。 "在执行任何工具调用之前，必须使用<thinking>标签，把你这一步的推理过程、风险评估、预期结果全部写出来。不写思考过程就调工具属于违规操作！"

第三条：撞了南墙回头拆墙。 "如果工具返回了错误信息（stderr 不为空），立刻回到<thinking>，分析为什么错了、换什么方法，然后重试。循环执行，直到成功或达到死锁上限。"

整个所谓"自主推理 Agent"的执行引擎，翻译成伪代码：

while 任务未完成 and 循环次数 < 上限:  <thinking>：我看看现在什么情况，下一步该干啥，用哪个工具  <tool_call>：调工具（Read / Write / Bash / ...）     收到结果：     成功 → 继续下一轮     失败→ 回到<thinking> 分析原因，换个办法

一个while(true)，一个<thinking>强迫症，几个写得比产品经理的 PRD 还啰嗦的工具调用规则。这就是被吹得神乎其神的Agent 的全部。

而且，如果你把泄露的 51.2 万行源码按功能拆开，会发现一个极其幽默的比例：

Claude Code 源码构成。绝大部分是上下文工程——文件读写、权限校验、沙箱隔离。真正调用模型 API 的代码，只有高亮的那一小块。

全世界的开发者看完这个比例，沉默了三十秒——然后开始狂笑。不是因为 Claude Code 做得不好。恰恰相反——是因为它做得太好了，而它的底层居然如此朴素。Agent 不是魔法，是工程。不是雷神之锤那种"只有被选中的人才能举起"的神器，而是一套任何人都可以照着图纸自己焊的扳手。但工程的大头，不是"怎么让模型更聪明"——是"怎么把模型的输出安全地接进现实世界"。

更深的震撼在于：这不就是 OpenClaw 那帮人半年前就在做的事吗？只不过社区用的是一个周末写出来的几百行脚本，而 Anthropic 花了几亿美元把它做成了产品。

这条逻辑链，到这里彻底闭环了。

左：外界想象中的赛博法师 Agent。右：红色幕布被撬棍拉开——里面是一个贴满 `<thinking>` 便签纸的生锈齿轮，加一个 `while(true)` 死循环

（四）

三代进化：从念咒语到绑安全带

AI 拼出了脑子、焊上了钳子、开始在全世界极客的电脑里满地乱跑。然后，一种谁都没想到的焦虑开始蔓延。

不是"AI 会不会取代我"——这个问题已经被讨论烂了。而是另一个更具体的、真正每天坐在电脑前干活的人才有的焦虑：

"它写到一半的代码，我怎么审查？我根本看不懂。"

这个焦虑，指向了 AI 应用时代最锋利的一个矛盾：AI 的能力每上一个台阶，对使用者的要求不是在降低，而是在换维度。

把这条线拉到三年跨度上看，你会看到三代开发者角色的被迫进化。

第一代：Prompt Engineer（提示词工程师，约 2023）——念咒语的巫师

两年前，这是一个炙手可热的岗位。硅谷甚至有公司开出几十万美元的年薪招"Prompt 专家"。

这批人干的事，本质上是什么呢？他们在跟一个大号黑盒玩一场玄学游戏。当时的大模型还不够聪明，你需要用极其精巧的措辞来诱导它给你正确的结果。

"你现在是一个在全球顶级科技公司工作了二十年的资深架构师……"

"请一步一步思考（Let's think step by step）……"

"如果回答错误，一只小猫会因此死去……"

最后这句话，当年是可以实际提高模型准确率的。不是段子——是真事。

Prompt 工程师的核心能力，是摸透模型在那个阶段的不完美之处——它的盲区在哪、什么时候容易跑偏、需要什么措辞来约束它。他们是一群靠"模型不够聪明"吃饭的人。

然后 Claude 3.5 和 GPT-4o 来了。它们不再需要你在末尾加一句恐吓小猫的废话。你甚至可以用半句病句表达意图，它们一样能给你漂亮的回答。

结局：急速失业。模型越聪明，念咒语的就越没饭吃。Prompt 工程没有消失——它被"吸收"进了模型本身。当模型能自己脑补你未尽的语义时，那些精心雕琢的前缀后缀，一夜之间从"核心竞争力"变成了"过度拟合的笑话"。

第二代：Context Engineer（上下文工程师，约 2024-2025）——喂书的图书管理员

Prompt 失效了，但新的问题立刻暴露出来。

大模型再聪明，它有一个硬伤：它是用公开数据训练的。你的公司内部文档、你的私有代码库、你这个季度的财务报表——它一个字都没看过。

于是出现了第二代角色——Context 工程师。他们做的事叫 RAG（检索增强生成）：在用户提问之前，先把相关的内部文档从向量数据库里捞出来，打包成一大段"背景材料"，悄悄塞进 prompt 里。让 AI 在回答之前，先读一遍"公司内参"。

这套技术在一段时间里是所有企业级 AI 应用的核心架构。

但 Context 工程师也有他们的天花板。当 Agent 长出了手脚——能写代码了、能改文件了、能发邮件了——光喂知识不够了。你给一只老虎读了一本《烹饪大全》，它仍然可能把厨房烧了。问题不在于"它懂不懂菜谱"，而在于"它有没有被锁在安全的操作范围内"。

结局：价值打折。 Context 工程没有消失——但它从"全部答案"变成了"必要条件之一"。知识喂再多，也替代不了对行动的约束。

第三代：Harness Engineer（挽具工程师，2026——）——绑安全带的机甲包工头

"Harness"这个词，本意是攀岩的安全背带、跳伞的降落伞绑带、或者套在烈马身上的重型皮革挽具。

当你的猫长出了钳子，把厨房所有电器都接上了——你最需要的，不是一本更厚的菜谱。而是一根能在一秒钟内拔掉总电源的绳子。

Harness 工程师每天的工作，不是跟 AI 说话。是给 AI 搭建一个它逃不出去的沙箱：

·它想改代码？可以——先在 Docker 容器里跑一遍，通过了十个预设测试用例再放出来。

·它想连数据库？可以——但这个账号只有SELECT权限，永远不可能执行DROP TABLE或DELETE。

·它想在终端里跑命令？可以——但有一个全局熔断器，五次循环无果直接掐断 API 连接，全额退款都不给你烧。

·它自己改完代码提交 PR？可以——但 merge 按钮永远在人的手里，它只能建议，不能决定。

这四道锁背后，有一条 Harness 工程的铁律："想"和"动"必须彻底劈开。复杂的分析推理（Agent 的"想"）可以扔给算力集群跑大模型，随便它怎么琢磨、怎么多轮推演、怎么调用知识库——这些都不怕出错。但最终的落地执行（Agent 的"动"）——改文件、跑脚本、调数据库——必须发生在权限被阉割到最低的隔离环境里。想象一台机器，CPU 可以全速运转算任何东西，但它连着一把必须经过空气间隙才能落下的物理闸刀。"想"在云端，"动"在沙箱——同一条链路都不行。这就是为什么好的 Harness 设计，不会让 Agent 的推理环境和执行环境跑在同一层权限上。

你发现了吗？Harness 工程师的核心能力，既不是"会写 Prompt"，也不是"会搭 RAG 管道"。而是能在系统架构层面预判一个失控的 Agent 会在哪里炸——并且在它炸之前，用沙箱、权限降级、熔断机制和自动回滚把这颗地雷裹成一块砖头。

说的极端一点：一个顶级的 Harness 工程师，他在 Agent 面前不是管理者，他是典狱长。他把一个疯批 AI 关进一所精心设计的监狱里，然后通过窗口让它干活。干完了，从窗口把成果递出来。狱门不打开。

三代工程师并列。左：捧羊皮纸卷轴念咒的魔法师。中：推着文件山满头大汗的图书管理员。右：头戴安全帽、腰间挂满工业锁链和红色制动电闸的挽具工程师。

（五）

尾声：贾维斯梦里没有说的事

回到钢铁侠。

托尼·斯塔克之所以能那样漫不经心地跟 Jarvis 说话，不是因为 Jarvis 的脑子够聪明——整个漫威宇宙里，比 Jarvis 更聪明的 AI 多的是，奥创就是其中一个。托尼之所以信任 Jarvis，是因为他亲手设计了 Jarvis 的每一层约束。他知道 Jarvis 能做什么、不能做什么。他给了它钥匙，但他也知道钥匙串上哪一把是"绝对不能碰的"。

我们现在站在同一个分岔口。

ChatGPT 撕掉了交互的说明书。上下文窗口拉到了一百万 token。多模态让 AI 睁开了眼睛。推理链让它学会先想再说。Tool Use装上了手，Computer Use 装上了眼睛。六块拼图，全部就位。

而那个被大家叫做"小龙虾"的 OpenClaw，用一对粗壮的大钳子，把所有这些拼图捏在了一起——告诉你：贾维斯不是科幻，它是工程。你可以自己拼一个。

但有一件事，斯塔克的电影里从来没有拍过。

那就是在第一代 Jarvis 上线的那天晚上，托尼·斯塔克一个人坐在实验室里，盯着屏幕上 Jarvis 的权限配置文件，想了整整一夜——要不要把战甲武器系统的写入权限，交出去？

夜晚的实验室。一个人面对全息屏幕上的权限面板，手指悬在 Enter 键上方，迟迟没有落下。

焦虑是对的。但历史不会等你准备好。

在你读到这行字的此刻，无数开发者正在电脑前做同一件事：把一个周末就能焊出来的小龙虾 Agent，接入自己公司的生产环境。有人兴奋得手抖，有人焦虑到失眠。

这种焦虑，每一个站在技术断崖上的人都经历过。

1886 年，卡尔·本茨造出第一辆汽车的时候，马车夫们站在路边，看着那个轰隆隆喷着黑烟的铁疙瘩，心里的感觉跟我们今天看 Agent 一模一样。"这东西迟早会失控撞死人。"他们说对了——汽车确实会撞死人。每年，全世界有超过一百万人死在车轮下。但他们也错过了一件事：五十年后，全世界的马路上已经没有马车了。不是因为汽车更安全。是因为汽车更快、更强、更不可阻挡。

马车夫们没有做错任何事。他们只是站在了历史的断面上——而断面不会因为你的焦虑停止移动。

今天你看着 Claude Code 在你的代码库里自动修 Bug，看着 OpenClaw 在你的终端里自己跑命令，那种"我是不是要失业了"的焦虑——它是合理的。但不是因为 AI 比你强。是因为你的价值衡量尺度正在被重置。

以前你值钱，是因为"你能写出来"。

以后你值钱，是因为"你能管住它"。

左：1886 年，马车夫瞪大眼睛看着第一辆奔驰汽车轰鸣而过。右：2026 年，你瞪着屏幕看 Agent 自动提交代码。同一个表情。

与其做那个站在路边骂汽车的马车夫，不如做第一批考驾照的人。

而所有这些——Agent、Harness、小龙虾、六块拼图——都只是沿途的服务区。真正的目的地，所有人心里都清楚。1956 年达特茅斯那群天才在夏天的会议室里写下的那个 flag，七十年来没有人真正忘掉：造一个和人类一样聪明的机器：AGI。

Scaling Law 不一定能把它送到。Agent 也不一定。但每一次"不行"之后，都有人找到了"换条路试试"。符号主义崩了，连接主义翻身了。GPU 不够用了，量化顶上。参数堆不动了，Agent 开出第二曲线。AGI 还在远处，但通往它的路，就是在一次次"此路不通"和"换条路试试"之间，一寸一寸铺出来的。

五期《AI 折腾史》，从 1956 年达特茅斯的那个夏天，一路讲到现在。这七十年里，每一次 AI 往前迈一步，都有一批人选择骂它，另一批人选择学它。符号主义崩了，连接主义气宗翻身了。GPU 暴力碾碎了旧秩序。Transformer 炸掉了串行锁链。量化把大象装进了口袋。Agent 给猫焊上了钳子。

每一次，骂的人留在原地。学的人去了下一个时代。

这一轮，你选哪边？

──────────

下一篇预告：《AI 折腾史》五期到这里就写完了。接下来我还没想好下一个系列写什么，但有一些压箱底的基础概念，一直想找机会单独拆开讲透——比如"训练"和"推理"到底有什么区别？为什么一个贵到上天、一个便宜到几乎不要钱？GPU 在这中间到底干了什么？每一篇只讲一件事，但讲到你忘不掉。

下篇见。

──────────

参考资料

·Anthropic (2024). Introducing the Model Context Protocol. anthropic.com/news.

·Anthropic (2025). Claude Code Documentation & Computer Use. anthropic.com.

·Google DeepMind (2025). Gemini 1.5 Pro: Million-Token Context Window. Google Research.

·Google (2025). Agent-to-Agent Protocol (A2A). github.com/google/A2A.

·OpenAI (2025). Codex CLI. github.com/openai/codex.

·Karpathy, A. (2025). Vibe Coding. X/Twitter.

·GitHub 社区 Claude Code System Prompt 逆向工程解析。

·DeepSeek-AI (2026). DeepSeek-V4 Technical Report.