人人都想要一个贾维斯。直到它真的开始动你的键盘——你往后跳了一步。
哈喽,我是张量轨道。
第一期,我们看着一群天才试图用 If-Else 穷尽世界,撞上了莫拉维克悖论——猫都认不出来,还谈什么智能。第二期,被学界判了死刑的连接主义,靠一把"本来用来打游戏的芯片"翻了盘——GPU 暴力美学碾碎了所有质疑。第三期,Transformer 用"注意力"炸掉了 RNN 的串行锁链——每个字同时看所有字,GPU 的几千个小核心终于不用嗑瓜子看戏了。第四期,模型越训越大,显存却纹丝不动——于是工程师们操起量化的铡刀,把小数点后"你根本感知不到的精度"一刀刀砍掉,硬把数据中心塞进了笔记本。
四期文章,画了一条清晰的主线:AI 是怎么从零开始,一步步把"脑子"做出来的。
但脑子不是终点。脑子只是起点。
真正刺激的故事,发生在脑子被装上手脚以后。

猫站在厨房门口,爪子上挂着一串钥匙。微波炉、烤箱、燃气灶——所有设备都亮着待机灯。
(一)
人人都想要一个贾维斯
2008 年,第一部《钢铁侠》上映。托尼·斯塔克在他那个面朝太平洋的马里布豪宅里,用一种漫不经心的语气说了一句:"Jarvis,把今天的行程调出来。"
然后一个英国口音的 AI 管家——你看不到它,但它无处不在——帮他控制家里的灯光、调配战甲的武器系统、甚至在他宿醉的时候提醒他开会。斯塔克进工作室,手一挥,全息投影铺开。他一边喝咖啡一边对着空气说话,Jarvis 在背景里默默完成了一百件事。
这个画面,在接下来的十几年里,成了整个科技行业最顽固的执念。
Google 在做 Google Assistant 的时候,内部立过一个 flag:"我们要做每个人的 Jarvis。"Siri 背后的团队对着同一个目标发过誓。Alexa、小爱同学、天猫精灵——本质上都是"贾维斯梦"的不同版本。
但所有人很快发现了一件事。这些产品,本质上都只是把"手机上的按钮"换成了"对着音箱喊的话"。你说"打开客厅的灯",它做了。你说"讲个笑话",它讲了。你说"为什么我的房贷利率这么高"——它沉默了。
它们有耳朵和嘴巴,但没有脑子。它们能执行指令,但不能理解意图。它们是只读设备——听得见你的声音,碰不到你的世界。
十五年过去,贾维斯依然只是电影里的特效。
直到 2022 年 11 月,ChatGPT 上线。

上:钢铁侠的全息实验室,Jarvis 环绕。下:你站在客厅对着智能音箱吼了三遍"打开客厅的灯"。
(二)
三年军备竞赛:六块拼图如何一块块就位
ChatGPT 不是贾维斯。它只有文字,没有手。但它做了一件之前所有 AI 助手都没做到的事:真正听懂了人话。
在这之后的整整三年里,全球大模型厂商陷入了一场疯狂的军备竞赛。每几个月,就有一块关键能力被点亮。每一次点亮,都让"贾维斯梦"离现实更近一步。而每一次点亮,都伴随着一个工厂商狠狠抽了另一个厂商一巴掌。
回过头看,Agent——能在你电脑上自己干活的那种 AI——不是谁发明的。它是这六块拼图集齐之后,自己从桌上站起来的。
第一块拼图:Chat(2022-2023)——AI 学会听懂人话
OpenAI 先把门炸开了。ChatGPT 上线两个月,用户破亿。全世界第一次体验到:你跟机器说话,不需要像下命令一样格式严谨——你可以用大白话、错别字、甚至颠三倒四的语序,它都能明白你在说什么。
这一步把交互的门槛拉到了零。但 ChatGPT 有一个致命的局限:它只能告诉你"应该怎么做",不能自己去做。你问它"怎么改这个 Bug",它能给你十行代码。但你得自己复制、粘贴、保存、跑测试。它是个军师,不是个士兵。
第二块拼图:上下文窗口(2023-2024)——AI 不再只有三秒记忆
早期的 ChatGPT,上下文只有 4096 个 token。什么意思?你跟它聊了五页纸,它已经把第一页忘了。你还指望它帮你改一个跨十几个文件的工程代码?它连你第二个文件的名字都记不住。
然后战争开打了。Anthropic 把 Claude 的上下文拉到 100K token——一本书都能塞进去了。Google 用 Gemini 1.5 Pro 直接炸到了 100 万 token。100 万 token 什么概念?《三体》三部曲全部丢进去,还有剩。一个中等规模的代码库,整个扔进去,它能全部读完再回答你的问题。
没有长上下文,Agent 就是一句空话。你没法让一个只有三秒记忆的金鱼帮你管理项目。
第三块拼图:多模态/世界模型(2024-2025)——AI 睁开了眼睛
Sora 生成的视频第一次亮相的时候,所有人都被震住了。不是因为它画面精美——而是因为它展现了某种对物理世界的理解。光线在墙上怎么反射,水泼出去怎么飞溅,一个人走过去之后椅子怎么留在地面上——这些细节不是"画出来"的,是模型自己"推导"出来的。
这意味着 AI 不再只是一个"文本处理器"。它开始理解三维空间、时间连续性和因果关系。这一步直接打通了"看懂屏幕"和"看懂世界"之间的壁垒。一个只能处理文字的 Agent,有一个只能看懂屏幕的 Agent——后者能干的事多了一个数量级。
Veo、Seedance、Kling——Google 的、字节的、快手的——一场视频生成的多国混战,把多模态能力从炫技推到了实用线以上。

前三块拼图(Chat、上下文、多模态)已经稳稳嵌在桌面上。后三块(推理链、Tool Use、Computer Use)正被 OpenAI、Anthropic、Google、DeepSeek 四只手同时争抢。
第四块拼图:推理链内置化(2024-2025)——AI 学会"先想清楚再说"
这是六块拼图中最不性感但也最关键的一块。
以前的模型,你问它一个复杂的数学问题,它张嘴就来——然后给你一个自信满满的错误答案。因为它被训练的方式是"下一个词最可能是什么",不是"这个问题我该分几步推"。
OpenAI 的 o1 改变了这个范式(2024 年 9 月)。模型被训练成:回答之前,先在内部把推理步骤过一遍,推完了再开口。Anthropic 立刻跟进 extended thinking。两个月后,DeepSeek 推出 R1-Lite-Preview——首个公开叫板 o1 的中国推理模型。到 2025 年 1 月 R1 正式版开源,AIME 和 MATH 基准上和 o1 打得有来有回,完整的训练管线(SFT + RL)和思考过程全部公开。OpenAI 把推理链藏着掖着,DeepSeek 当着全行业的面演示了一遍"这玩意儿也能训,而且价格是你们的百分之一"。
这一块拼图极其关键——因为 Agent 的核心能力不是"回答",是规划。Agent 面对的不是一个提问,是一个需要多步操作的任务。它要先判断"我需要什么信息"、"我要调用哪个工具"、"调完的结果对不对"、"不对的话换一种方法"。没有推理链内置化,Agent 就像一个没有前额叶的人——它能做事,但它在每一步之间没有"思考缓冲"。
第五块拼图:Tool Use / Function Calling(2023-2024)——AI 学会了伸手
这是 Agent 的神经反射弧。
早期的 ChatGPT,你问它"今天天气怎么样",它告诉你一个虚构的温度——因为它根本没有查询天气的能力。而 Tool Use 改变了这件事:模型被训练成,当它判断某个问题需要的知识超过了它的训练数据时,它不再瞎编——而是主动说:"我不知道,但我可以调用天气 API 帮你查。"
这不只是"会回答问题"和"会查工具"的区别。这是从被动到主动的切换。Tool Use 的本质,是模型被赋予了一种"自知之明"——它知道自己的能力边界在哪,并且在边界之外主动伸手。
Anthropic 的 MCP(Model Context Protocol)把 Tool Use 标准化了——更重要的是,它把每一个工具封装成了可插拔的Skill:你不再需要自己写胶水代码去接 API,只要装一个"数据库 Skill"、一个"浏览器 Skill"、一个"文件系统 Skill",Agent 就自动知道怎么用它们。Google 的 A2A(Agent-to-Agent Protocol)更进一步——让多个 Agent 之间能互相调用。OpenAI 的 Codex CLI 则把 Tool Use 直接嵌入了命令行。三家在同一个方向上赛跑——不是比谁的模型更聪明,而是比谁的模型"手更长"。而 Skill 生态的爆发,才是"人人都能焊钳子"的真正基础。
第六块拼图:Computer Use(2025-2026)——AI 直接上手了
2025 年,Anthropic 放出了一个让行业原地愣住的能力:Claude 被训练成能直接操作电脑——不是通过 API 调用,而是像人一样看屏幕、移动光标、点击按钮、填写表单、滚动页面。
在此之前,所有 Agent 本质上都是"API 调用者"。它能调你给它授权的接口——发个 HTTP 请求、跑个命令、读个文件。但世界上绝大多数的软件和网站,并没有 API。你要让 AI 帮你填个网页表单?它做不到——因为它看不见那个表单。
Computer Use 打破了这面墙。AI 不再需要 API——它直接通过屏幕像素理解界面,通过光标和键盘操作界面。这意味着它能操作任何人类能操作的软件。不是理论上的——实际上的所有软件。
但这一步的意义,远不止"能力变强了"。Tool Use 时代,AI 走的是人类给它铺好的高速公路——API 接口是标准化的、输入输出是可预期的、出错了有明确的报错码。Computer Use 时代,AI 开着越野车直接冲进了泥土小路——没有任何接口规范,每一个像素都可能是一个陷阱,每一次点击都可能产生完全不可预测的连锁反应。不确定性不是线性增长,是指数级爆发。也是为什么后面 Harness 挽具工程师变得不可或缺——当猫不仅拿到了厨房钥匙,还学会了自己撬锁,你绑的那根绳必须比它的撬锁速度更快。
紧接着,Google 的 Mariner 也跟上了。OpenAI 的 Operator 也来了。三家在同一个赛道上各自开炮。2026 年初 DeepSeek 跟进开源。

六块拼图碎片——Chat、上下文、多模态、推理链、Tool Use、Computer Use——逐一嵌入齿轮骨架,一个泛着蓝光的 Agent 轮廓在硝烟中站起来。
六块拼图全部到位的那一天,Agent 自己从桌上站了起来。
它不需要谁去发明。它只是一个水到渠成的必然产物:脑子够聪明了(Chat + 推理链),记性够长了(上下文窗口),眼睛睁开了(多模态),手够长了(Tool Use + Computer Use)。
但这幅拼图背后,还有一个更深层的推手。
Scaling Law 正在逼近天花板。 2020 年 OpenAI 那篇论文说得很清楚:加参数、加数据、加算力,性能就往上走。所有人按这个公式狂飙了四年。GPT-4做到了约 1.8 万亿参数,DeepSeek-V4 推到了 1.6 万亿,Qwen3.5 一口气出了八个尺寸。但每一代参数翻倍的边际收益都在递减。到 2025-2026 年,几家头部厂商内部都已经意识到:纯靠堆参数换来的提升,正在被成本增速反超。
Scaling Law 这条"通天梯"到顶了,但用户对 AI 能力的期待远远没到顶。下一个维度的增长从哪来?全行业的答案出奇一致:不是更大的模型——是能自己动手干活的模型。 Agent 不是锦上添花,是 Scaling Law 见顶之后,整个行业被迫找到的"第二增长曲线"。

模型参数的增长曲线一头撞上 Scaling Law 的天花板。箭头急转——全行业转身扑向 Agent。
这解释了为什么 2025-2026 年,所有人都在卷 Agent。OpenAI 做 Codex CLI,Anthropic 做 Claude Code,Google 做 Mariner,Cursor、Windsurf、Devin 挤在中间——不是因为 Agent 这个想法突然变得很酷,而是因为除了 Agent,已经没有别的地方可以卷了。
(三)
OpenClaw:当全球极客开始给 AI 焊钳子
2025 年 11 月,奥地利一个叫 Peter Steinberger 的退休 iOS 工程师——之前把公司卖了大概一亿欧元那种退休——闲着没事干,花了一个周末写了个开源项目。这个项目的思路极其简单粗暴:给大模型接上一堆系统工具,让它能在你电脑上直接干活。
他给这个项目起了个名字,叫Clawdbot。Logo 是只小龙虾,一对粗壮的大钳子最抢眼——"Claw"(钳子),就是给 AI 装上能抓住世界的爪子。
这个几乎没做任何推广的周末项目,在 GitHub 上像野火一样烧了起来。因为它的体验和前几年所有的 AI 应用都不一样。以前的 ChatGPT,你问它"帮我查代码漏洞"——它回一段文字让你自己复制粘贴,它是军师、不是士兵。但 Clawdbot 不一样,它自己在终端里grep、分析、生成补丁、提交 PR——AI 第一次从"嘴炮"变成了"操作员"。
然后戏剧性的一幕来了。Anthropic 法务注意到这个名字——"Clawdbot"太像"Claude"了。律师函飞到 Steinberger 手里:改名。Steinberger 连夜改成Moltbot(龙虾蜕壳=重生),社区狂嘘——四十八小时后又改成OpenClaw。"Open"代表开源,"Claw"保留钳子基因。名字终于对了。
但 Anthropic 的律师函反而给 OpenClaw 浇了一桶汽油。被巨头发函?这在开源圈就是最好的广告。GitHub star 数以天为单位翻倍,到 2026 年初已超过 Linux 和 React 成为史上增长最快的项目——黄仁勋在摩根士丹利科技投资会上说它是"我们这个时代最重要的软件发布",Linux 花了三十年,OpenClaw 三周就超过了。2 月中旬,Sam Altman 亲自官宣:Steinberger 加入 OpenAI,主导"下一代个人 Agent"。
中国开发者给它取了个精准到令人发指的外号:"小龙虾"。不只是因为 logo。门槛极低——一个周末能自己焊一个;上手极爽——看它自己在终端干活有极客快感;但满手油污——权限报错、死锁、循环烧 token——你得自己擦。
OpenClaw 的爆火,证明了一件事:Agent 不是巨头实验室里的黑科技。它是任何会写`while` 循环的人都能手搓的扳手。
然后,几个月后,一桩泄露事件,把"Agent 就是工程"这个结论,盖棺定了论。

OpenClaw 的本体——赛博朋克机械小龙虾。一对巨螯分别钳住浏览器窗口和数据库服务器,虾须是疯狂延展的 USB 数据排线。
(三)
源码泄露:当 Claude Code 的底裤终于被扒光
OpenClaw 证明了 Agent 不神秘。但它只证明了一半——开源社区自己拼出来的 Agent 不神秘。那 Anthropic 花了几亿美元打造的 Claude Code 呢?那个能在你的代码库里自动定位 Bug、生成补丁、跑完整测试套件的"旗舰 Agent"呢?它背后是不是藏着什么社区还没破解的独门秘籍?
2026 年 3 月 30 日,答案以一种 Anthropic 绝对不想看到的方式,被端到了全世界的桌面上。
Anthropic 发布 Claude Code CLI v2.1.88 到 npm。一个打包失误——他们把调试用的 source map 文件也一起发上去了。59.8MB。51.2 万行 TypeScript 源码。1900 个源文件。全部暴露。
更刺激的是,同一周,Anthropic 的 CMS 系统也出了配置错误——近 3000 份内部资产被外泄,包括一个代号"Claude Mythos"(内部名 Capybara)的未发布模型草稿、CEO 闭门会议邀请名单和内部员工文档。
五天之内,两次泄露。媒体直接把这事叫做"AI 界的第一次核泄漏"。
全世界的开发者跳进这堆泄露的源码里,翻找那个被包装得神乎其神的"Agent 推理引擎"。
找到了。
一份长达几万字的XML 纯文本说明书。没有神经网络增强模块。没有强化学习的自我博弈引擎。没有"意图理解引擎"。
只有三条核心纪律,用各种措辞翻来覆去写了几百遍:
第一条:眼见为实。 "在你修改任何文件之前——哪怕只改一个标点——必须先用 Read 工具读一遍这个文件,确认它的当前内容和你记忆中的一致。不要相信你的训练记忆!你记住的可能是错的!"
第二条:先写日记再动手。 "在执行任何工具调用之前,必须使用<thinking>标签,把你这一步的推理过程、风险评估、预期结果全部写出来。不写思考过程就调工具属于违规操作!"
第三条:撞了南墙回头拆墙。 "如果工具返回了错误信息(stderr 不为空),立刻回到<thinking>,分析为什么错了、换什么方法,然后重试。循环执行,直到成功或达到死锁上限。"
整个所谓"自主推理 Agent"的执行引擎,翻译成伪代码:
while 任务未完成 and 循环次数 < 上限:<thinking>:我看看现在什么情况,下一步该干啥,用哪个工具<tool_call>:调工具(Read / Write / Bash / ...)收到结果:成功 → 继续下一轮失败→ 回到<thinking> 分析原因,换个办法
一个while(true),一个<thinking>强迫症,几个写得比产品经理的 PRD 还啰嗦的工具调用规则。这就是被吹得神乎其神的Agent 的全部。
而且,如果你把泄露的 51.2 万行源码按功能拆开,会发现一个极其幽默的比例:

Claude Code 源码构成。绝大部分是上下文工程——文件读写、权限校验、沙箱隔离。真正调用模型 API 的代码,只有高亮的那一小块。
全世界的开发者看完这个比例,沉默了三十秒——然后开始狂笑。不是因为 Claude Code 做得不好。恰恰相反——是因为它做得太好了,而它的底层居然如此朴素。Agent 不是魔法,是工程。不是雷神之锤那种"只有被选中的人才能举起"的神器,而是一套任何人都可以照着图纸自己焊的扳手。但工程的大头,不是"怎么让模型更聪明"——是"怎么把模型的输出安全地接进现实世界"。
更深的震撼在于:这不就是 OpenClaw 那帮人半年前就在做的事吗?只不过社区用的是一个周末写出来的几百行脚本,而 Anthropic 花了几亿美元把它做成了产品。
这条逻辑链,到这里彻底闭环了。

左:外界想象中的赛博法师 Agent。右:红色幕布被撬棍拉开——里面是一个贴满 `<thinking>` 便签纸的生锈齿轮,加一个 `while(true)` 死循环
(四)
三代进化:从念咒语到绑安全带
AI 拼出了脑子、焊上了钳子、开始在全世界极客的电脑里满地乱跑。然后,一种谁都没想到的焦虑开始蔓延。
不是"AI 会不会取代我"——这个问题已经被讨论烂了。而是另一个更具体的、真正每天坐在电脑前干活的人才有的焦虑:
"它写到一半的代码,我怎么审查?我根本看不懂。"
这个焦虑,指向了 AI 应用时代最锋利的一个矛盾:AI 的能力每上一个台阶,对使用者的要求不是在降低,而是在换维度。
把这条线拉到三年跨度上看,你会看到三代开发者角色的被迫进化。
第一代:Prompt Engineer(提示词工程师,约 2023)——念咒语的巫师
两年前,这是一个炙手可热的岗位。硅谷甚至有公司开出几十万美元的年薪招"Prompt 专家"。
这批人干的事,本质上是什么呢?他们在跟一个大号黑盒玩一场玄学游戏。当时的大模型还不够聪明,你需要用极其精巧的措辞来诱导它给你正确的结果。
"你现在是一个在全球顶级科技公司工作了二十年的资深架构师……"
"请一步一步思考(Let's think step by step)……"
"如果回答错误,一只小猫会因此死去……"
最后这句话,当年是可以实际提高模型准确率的。不是段子——是真事。
Prompt 工程师的核心能力,是摸透模型在那个阶段的不完美之处——它的盲区在哪、什么时候容易跑偏、需要什么措辞来约束它。他们是一群靠"模型不够聪明"吃饭的人。
然后 Claude 3.5 和 GPT-4o 来了。它们不再需要你在末尾加一句恐吓小猫的废话。你甚至可以用半句病句表达意图,它们一样能给你漂亮的回答。
结局:急速失业。模型越聪明,念咒语的就越没饭吃。Prompt 工程没有消失——它被"吸收"进了模型本身。当模型能自己脑补你未尽的语义时,那些精心雕琢的前缀后缀,一夜之间从"核心竞争力"变成了"过度拟合的笑话"。
第二代:Context Engineer(上下文工程师,约 2024-2025)——喂书的图书管理员
Prompt 失效了,但新的问题立刻暴露出来。
大模型再聪明,它有一个硬伤:它是用公开数据训练的。你的公司内部文档、你的私有代码库、你这个季度的财务报表——它一个字都没看过。
于是出现了第二代角色——Context 工程师。他们做的事叫 RAG(检索增强生成):在用户提问之前,先把相关的内部文档从向量数据库里捞出来,打包成一大段"背景材料",悄悄塞进 prompt 里。让 AI 在回答之前,先读一遍"公司内参"。
这套技术在一段时间里是所有企业级 AI 应用的核心架构。
但 Context 工程师也有他们的天花板。当 Agent 长出了手脚——能写代码了、能改文件了、能发邮件了——光喂知识不够了。你给一只老虎读了一本《烹饪大全》,它仍然可能把厨房烧了。问题不在于"它懂不懂菜谱",而在于"它有没有被锁在安全的操作范围内"。
结局:价值打折。 Context 工程没有消失——但它从"全部答案"变成了"必要条件之一"。知识喂再多,也替代不了对行动的约束。
第三代:Harness Engineer(挽具工程师,2026——)——绑安全带的机甲包工头
"Harness"这个词,本意是攀岩的安全背带、跳伞的降落伞绑带、或者套在烈马身上的重型皮革挽具。
当你的猫长出了钳子,把厨房所有电器都接上了——你最需要的,不是一本更厚的菜谱。而是一根能在一秒钟内拔掉总电源的绳子。
Harness 工程师每天的工作,不是跟 AI 说话。是给 AI 搭建一个它逃不出去的沙箱:
·它想改代码?可以——先在 Docker 容器里跑一遍,通过了十个预设测试用例再放出来。
·它想连数据库?可以——但这个账号只有SELECT权限,永远不可能执行DROP TABLE或DELETE。
·它想在终端里跑命令?可以——但有一个全局熔断器,五次循环无果直接掐断 API 连接,全额退款都不给你烧。
·它自己改完代码提交 PR?可以——但 merge 按钮永远在人的手里,它只能建议,不能决定。
这四道锁背后,有一条 Harness 工程的铁律:"想"和"动"必须彻底劈开。复杂的分析推理(Agent 的"想")可以扔给算力集群跑大模型,随便它怎么琢磨、怎么多轮推演、怎么调用知识库——这些都不怕出错。但最终的落地执行(Agent 的"动")——改文件、跑脚本、调数据库——必须发生在权限被阉割到最低的隔离环境里。想象一台机器,CPU 可以全速运转算任何东西,但它连着一把必须经过空气间隙才能落下的物理闸刀。"想"在云端,"动"在沙箱——同一条链路都不行。这就是为什么好的 Harness 设计,不会让 Agent 的推理环境和执行环境跑在同一层权限上。
你发现了吗?Harness 工程师的核心能力,既不是"会写 Prompt",也不是"会搭 RAG 管道"。而是能在系统架构层面预判一个失控的 Agent 会在哪里炸——并且在它炸之前,用沙箱、权限降级、熔断机制和自动回滚把这颗地雷裹成一块砖头。
说的极端一点:一个顶级的 Harness 工程师,他在 Agent 面前不是管理者,他是典狱长。他把一个疯批 AI 关进一所精心设计的监狱里,然后通过窗口让它干活。干完了,从窗口把成果递出来。狱门不打开。

三代工程师并列。左:捧羊皮纸卷轴念咒的魔法师。中:推着文件山满头大汗的图书管理员。右:头戴安全帽、腰间挂满工业锁链和红色制动电闸的挽具工程师。
(五)
尾声:贾维斯梦里没有说的事
回到钢铁侠。
托尼·斯塔克之所以能那样漫不经心地跟 Jarvis 说话,不是因为 Jarvis 的脑子够聪明——整个漫威宇宙里,比 Jarvis 更聪明的 AI 多的是,奥创就是其中一个。托尼之所以信任 Jarvis,是因为他亲手设计了 Jarvis 的每一层约束。他知道 Jarvis 能做什么、不能做什么。他给了它钥匙,但他也知道钥匙串上哪一把是"绝对不能碰的"。
我们现在站在同一个分岔口。
ChatGPT 撕掉了交互的说明书。上下文窗口拉到了一百万 token。多模态让 AI 睁开了眼睛。推理链让它学会先想再说。Tool Use装上了手,Computer Use 装上了眼睛。六块拼图,全部就位。
而那个被大家叫做"小龙虾"的 OpenClaw,用一对粗壮的大钳子,把所有这些拼图捏在了一起——告诉你:贾维斯不是科幻,它是工程。你可以自己拼一个。
但有一件事,斯塔克的电影里从来没有拍过。
那就是在第一代 Jarvis 上线的那天晚上,托尼·斯塔克一个人坐在实验室里,盯着屏幕上 Jarvis 的权限配置文件,想了整整一夜——要不要把战甲武器系统的写入权限,交出去?

夜晚的实验室。一个人面对全息屏幕上的权限面板,手指悬在 Enter 键上方,迟迟没有落下。
焦虑是对的。但历史不会等你准备好。
在你读到这行字的此刻,无数开发者正在电脑前做同一件事:把一个周末就能焊出来的小龙虾 Agent,接入自己公司的生产环境。有人兴奋得手抖,有人焦虑到失眠。
这种焦虑,每一个站在技术断崖上的人都经历过。
1886 年,卡尔·本茨造出第一辆汽车的时候,马车夫们站在路边,看着那个轰隆隆喷着黑烟的铁疙瘩,心里的感觉跟我们今天看 Agent 一模一样。"这东西迟早会失控撞死人。"他们说对了——汽车确实会撞死人。每年,全世界有超过一百万人死在车轮下。但他们也错过了一件事:五十年后,全世界的马路上已经没有马车了。不是因为汽车更安全。是因为汽车更快、更强、更不可阻挡。
马车夫们没有做错任何事。他们只是站在了历史的断面上——而断面不会因为你的焦虑停止移动。
今天你看着 Claude Code 在你的代码库里自动修 Bug,看着 OpenClaw 在你的终端里自己跑命令,那种"我是不是要失业了"的焦虑——它是合理的。但不是因为 AI 比你强。是因为你的价值衡量尺度正在被重置。
以前你值钱,是因为"你能写出来"。
以后你值钱,是因为"你能管住它"。

左:1886 年,马车夫瞪大眼睛看着第一辆奔驰汽车轰鸣而过。右:2026 年,你瞪着屏幕看 Agent 自动提交代码。同一个表情。
与其做那个站在路边骂汽车的马车夫,不如做第一批考驾照的人。
而所有这些——Agent、Harness、小龙虾、六块拼图——都只是沿途的服务区。真正的目的地,所有人心里都清楚。1956 年达特茅斯那群天才在夏天的会议室里写下的那个 flag,七十年来没有人真正忘掉:造一个和人类一样聪明的机器:AGI。
Scaling Law 不一定能把它送到。Agent 也不一定。但每一次"不行"之后,都有人找到了"换条路试试"。符号主义崩了,连接主义翻身了。GPU 不够用了,量化顶上。参数堆不动了,Agent 开出第二曲线。AGI 还在远处,但通往它的路,就是在一次次"此路不通"和"换条路试试"之间,一寸一寸铺出来的。
五期《AI 折腾史》,从 1956 年达特茅斯的那个夏天,一路讲到现在。这七十年里,每一次 AI 往前迈一步,都有一批人选择骂它,另一批人选择学它。符号主义崩了,连接主义气宗翻身了。GPU 暴力碾碎了旧秩序。Transformer 炸掉了串行锁链。量化把大象装进了口袋。Agent 给猫焊上了钳子。
每一次,骂的人留在原地。学的人去了下一个时代。
这一轮,你选哪边?
──────────
下一篇预告:《AI 折腾史》五期到这里就写完了。接下来我还没想好下一个系列写什么,但有一些压箱底的基础概念,一直想找机会单独拆开讲透——比如"训练"和"推理"到底有什么区别?为什么一个贵到上天、一个便宜到几乎不要钱?GPU 在这中间到底干了什么?每一篇只讲一件事,但讲到你忘不掉。
下篇见。
──────────
参考资料
·Anthropic (2024). Introducing the Model Context Protocol. anthropic.com/news.
·Anthropic (2025). Claude Code Documentation & Computer Use. anthropic.com.
·Google DeepMind (2025). Gemini 1.5 Pro: Million-Token Context Window. Google Research.
·Google (2025). Agent-to-Agent Protocol (A2A). github.com/google/A2A.
·OpenAI (2025). Codex CLI. github.com/openai/codex.
·Karpathy, A. (2025). Vibe Coding. X/Twitter.
·GitHub 社区 Claude Code System Prompt 逆向工程解析。
·DeepSeek-AI (2026). DeepSeek-V4 Technical Report.
夜雨聆风