人要做的工作,比 AI 出现以前要多更多了

2026 年第一季度，美国科技行业裁了 52,050 人，同比增长 40%。

Meta 裁了 8000 人，同时在员工电脑上装了键盘记录软件，用来采集 AI 训练数据。Anthropic CEO 也公开表示：AI 可能淘汰一半的入门级白领岗位。

如果你是一个坐在办公室里的知识工作者，你可能已经在反复问自己一个问题：下一个被替代的，是不是我？

但有一家公司，按理说最应该给出肯定答案，却给出了完全相反的结论。

这家公司叫 Every，一家 30 人的 AI 公司。他们是 AI 最激进的早期采用者之一。如果有谁应该在疯狂裁人，就是他们。

但他们的 CEO Dan Shipper 在最新的万字长文里写道：「人要做的工作，比 AI 出现以前要多更多了。」

整篇文章我读了好几遍，它不是为了稳稳接住我们的一碗带毒的鸡汤。

相反，背后的思考逻辑非常深刻、理性甚至于冷酷：

当 AI 把专业能力「蒸馏」成 Skill 这种可以按需调用的廉价商品，这种廉价商品的泛滥，反而会创造人们对「非廉价判断」的巨大需求：

审美、判断、对 AI 的思考、独立思考和系统思维，将成为人与人的分水岭。

如果说的更直白点：在这个人人都能用 AI 创造的时代，真正值钱的不是去创造，而是知道要创造什么，以及如何让 AI 进行差异化的创造。

全文：https://every.to/p/after-automation

后 Agent 自动化时代

AI 进步非但没有减少人类的工作，反而创造了更多——Dan Shipper。

AI 的核心深处藏着一个悖论。

在 Every 平台，我们已经把能自动化的事情都做了自动化处理。我们在编码、写作、设计、客户服务等多个领域使用 Codex 和 Claude Code。OpenAI、Anthropic 和 Google 的每一款新模型发布前，我们都要先进行阿尔法测试。我们正随着模型智能与自动化的指数级增长浪潮，全力向前推进，力求走得更快、更远。

但对我们而言，要做的人力工作似乎比以前更多了。我们团队有近 30 人，并没有为了启用智能助手就把所有员工都裁掉。我们并未放弃 SaaS 产品，转而采用基于 Vibe Coding 的应用。我们依然雇佣人类提供客服服务（搭配大量智能助手辅助），同时也继续聘请人类作家、编辑和工程师。

不过，我们的工作确实和以前完全不一样了。现在我们已经不用手动写代码了。在我们的 Slack 里@某人时，你根本说不准对方是人还是 AI Agent。如今，经理们像个人贡献者一样提交代码，工程师们则直接对接客户。最近几周，AI 回复了我 95% 的工作邮件。我的收件箱几乎总是保持清零状态（这对我来说可太罕见了），但我还是会查看邮件。

总而言之，未来既怪异，又熟悉。

让人意外的是，AI 已经如此深入人心。尽管 CEO、知识工作者和投资者似乎都达成了共识：它会对就业、经济、安全乃至人类存在的意义构成威胁。

Anthropic 首席执行官达里奥·阿莫代伊警告称，人工智能可能会淘汰多达一半的入门级白领岗位。Meta 刚刚裁掉 8000 名员工，同时正在美国员工的电脑上安装软件，捕捉鼠标移动、点击和按键操作，以此获取针对高级知识工作场景的高质量 AI 训练数据。

就连 Citadel 的肯·格里芬都显得有些动摇，他最近说道：“这些可不是什么中层白领岗位啊。这些极高技能的工作，我用一个词来形容：正在被 AI 自动化。”

每推出一款新模型，基准测试结果就呈指数级增长，这似乎印证了这一点。

在「人类终考」，这个研究生级别的 benchmark 中，顶级模型的得分从一年前的个位数百分比，飙升到如今的约 44%。在 GDPval 测试中（在评估前沿模型在实际经济工作中的表现与人类相比如何），前沿模型的得分从相近的低位跃升至约 85%。

今年五月，人工智能安全研究非营利组织 METR 发布了 Claude Mythos 模型的早期测试结果，结果显示该模型在人类专家需约 4 小时完成的任务上，成功率高达 80%。

我们似乎即将迎来比人类更聪明的 AI。这种 AI 不仅拥有自主工作能力，还能连续运转近一整天。

但矛盾依旧存在。如果你和 AI 行业的人聊，或者和行业外的早期使用者聊，你会听到和我们内部观察到的一样的结论：现在要做的事比以往任何时候都多。

眼下，行业内外都在问一个核心问题：这到底只是暂时现象吗？下一次模型更新会是那个能取代所有人的版本吗？我们盯着各项指标，焦虑不安，总在想：会不会很快就迎来某个临界点，那时所有工作都会消失？

但我认为：不会有什么「临界点」突然到来，让一切彻底反转、工作岗位随之消失。真实情况恰恰相反：自动化程度越高，需要人类专家做的工作反而越多。

背后的逻辑很简单：AI 会把人类专业知识里那些能被清晰提炼、用来训练的内容变成标准化商品。这会让默认模型输出的价值大打折扣，同时催生对差异化内容的需求。即便我们离 AGI 越来越近，人们对独特性的需求本质上依然是对人类专家的需求。

要搞清楚这背后的原因，光看图表可不够，我们得看看现在 AI 在工作中究竟是怎么用的。这能帮我们从更务实的视角，看清这个悖论及其解决之道。

为什么 Agent 反而让人类工作更多

从 2022 年起，我们就一直在围绕 AI agents 报道未来工作的相关话题。

三年前，我写过一篇关于分配型经济的文章：与 AI 工具协作的工作方式，最终会变得和人类管理者的工作非常相似。那还是 ChatGPT 里的基础提示词与回应都被视为极其超前的年代。

分配型经济：https://every.to/chain-of-thought/the-knowledge-economy-is-over-welcome-to-the-allocation-economy

到了 2025 年中，我们公司彻底迷上了 Claude Code。

Cora 总经理基兰·克拉森（Kieran Klaassen）突然发现自己不用再手写代码了，现在他可以整天坐在终端前，用通俗易懂的英文指令与代码 Agent 交互。这种做法很快蔓延到了整个团队，而且一年前在 Lenny 播客上，我曾称 Claude Code 是「知识工作领域最被低估的工具」。

我之所以说这个，是因为我们最准确的预测都来自于将 Every 视作某种早期采用者实验室。我们往往会在新的工作模式普及之前就接触到它们。随着技术成熟、工具变得更易用，这些模式开始在更广泛的市场中出现。

以下是我们目前公司内部正在发生的事情：

「与智能体协作的两种模式」

与 AI 协作的方式，正开始分化为两种截然不同的模式。

第一种情况，正是 AI 领域讨论中预测得相当准确的，智能体作为员工。

这些是你可以委托工作的 Agent。有些智能 Agent 运行在 Slack 平台上，它们有自己的名字和职责，你需要它们做事时直接@就行。有些智能 Agent 嵌入日常工作流中，比如客服场景，它们是处理重复任务的常驻角色，始终在线待命。

第二种模式更为奇特，而且根据我的经验，它更为重要。

这就是像 Codex、Claude Code 和 Claude Cowork 这类工具中的人机协作。这些地方可不只是用来交接工作的。它们正在成为工作本身的核心操作系统。在这里，你能和多个智能体同时操作同一台电脑，完成异步智能体难以胜任的高度复杂、原创性工作。

在这两种模式下，你都能借助 AI 自动化处理并委派大部分工作，但这两种模式都离不开人（要么是你自己，要么是其他同事）才能顺利运行。

「智能体员工」

给 AI 智能体员工分配任务后，他们会自行完成答案、行动方案、报告、草稿或分类决策等工作，全程无需你介入。这类系统至少有两种类型：协作 Agent 和嵌入式 Agent。

协作 Agent 就是你可以在 Slack 中@的那种工具，比如让它帮忙处理工作。你需要的时候，它随时都在。这些智能体的风格仿照了 OpenClaw，或是我们内部的 Plus One。

Claudie 是我们咨询团队的协作助手。Claudie 负责撰写销售提案、制作培训课件初稿、跟进项目待办事项等一系列工作。

Andy 是我们编辑部的同事助手。她会从公司内部 Slack 群里收集「金点子」，也就是好的选题灵感，然后把它们整理成摘要和初稿，供撰稿团队用来编写每日通讯。

Viktor 是一个通用智能体，能在整个组织内承担各类工作。我们用它来收集增长指标、分析用户调研，还能把杂乱的内部讨论整理成研究备忘录和产品建议。

「嵌入式智能体」

嵌入式智能体内嵌于产品工作流程之中。它们没那么灵活，但在处理重复性任务时却非常高效。

Fin 是最典型的例子：这个嵌入我们客服平台的智能 Agent，通过聊天和邮件帮我们承担了大量支持工作。

5 月最近的一周，Fin 介入处理了 Every 平台 202 次支持对话中的 65%，其中 81 次无需人工协助就完成了闭环，占所有可处理对话的 40.1%。

像这样的嵌入式 Agent，让我们的客服经理 Waqqas Mir 不用再把大量时间耗在基础工单上，而是能将更多精力投入到两部分工作中：搭建工单响应系统，以及处理那些需要深度互动的复杂案例。

「人类与 AI 协作」

无论是协作者模式还是嵌入式模式，两者的规律都是相同的。

员工智能 Agent 正在接管越来越多稳定、可重复且流程清晰的工作任务。但很多工作仍然需要人工介入。我们反复发现：要完成任何复杂任务并做出高质量成果，最佳方式是让 AI 和人类在同一个协作空间里来回配合。

这正是 Codex、Claude Code 和 Cowork 的用途所在。这类工具让你能够创建并向多个聊天线程中的一个或多个 Agent 分配任务。这些智能 Agent 能够访问你的电脑以及所有的数据来源。你可以看到 Agent 人正在做的每一件事和思考的内容，并且能随时打断。

你负责在 Agent 每项任务的开始和结束阶段对他们进行管理，确保任务完成质量，并为他们安排下一项工作。基兰把这称为「人类三明治」，我们就像夹在 AI 工作两端的面包。

最典型的例子就是编程。Every 的工程师们整天都在和智能体反复配合。他们正在规划新功能或修复 bug，审查已完成的工作，并且，如果采用我们的复合工程理念，还会持续优化系统，让它随着时间推移不断改进。

复合工程理念：https://every.to/guides/compound-engineering

但这种协作远不止于编码。

「知识工作的新型操作系统」

Codex 与 Claude Code 正在成为职场的新操作系统。我几乎一整天都泡在 Codex 里，用它的内置浏览器运行我的 SaaS 工具。它让我的智能助手能随时陪我处理各种任务，帮我达到单靠自己无法企及的水平。

我是在 Codex 的应用内浏览器中，通过 Proof 撰写这篇内容的。Codex 会实时监测我的写作内容，随时能生成子智能体帮我完成各种任务：比如写段落初稿、为下一部分查找例子，或者做校对编辑。

我也是这么发邮件的。Cora 是我的邮件客户端，我在 Codex 的内置浏览器里使用它：一边浏览收件箱，一边通过 Monologue 逐件读出邮件内容。其余工作由 Codex 和 Cora 负责处理。

「每个智能体都需要人类」

在这波自动化应用的浪潮中，你或许已经清楚人类的角色所在。所有案例都表明，Agent 必须有人类参与才能真正发挥作用。

总得有人引导 AI 做对的事：判断输出是否合格，找出问题所在，再把结果转化为实际的决策或流程。

AI 智能体离负责监控其正常运行的人类越远，它的表现就越差。在我们内部首次将 AI Agent 作为员工部署时，曾给每位员工都分配了一个 AI Agent。但很快我们就调整策略，让 AI 代理服务于特定团队或整个公司，而非个人使用。

为什么？Agent 需要大量维护，个人 Agent 尤其如此：一旦与其协作的员工放弃使用，它们很快就会失效。我们有一支 AI 工程师团队，他们负责确保我们的智能体正常运行，而且在可预见的未来，我们都离不开他们。

哪怕是自动生成 PPT 演示文稿这种看似简单的操作，也可能变成一项艰巨的任务。我们的一款 PPT 自动化工具整合了 24 项功能与 18 个脚本，生成一份演示文稿的 token 成本为 62 美元。

这正是 Agent 反而让人类工作更多的第一层原因。

不过，还有第二层原因。

「为什么自动化反而增加了人类的工作量」

只要看看过去几年 AI 指数级的发展轨迹，再想想它的架构原理和能力来源，你就能发现一个清晰的反馈循环：这个循环反而创造了更多人类工作。

当前的语言模型训练数据来源于人类能力的各类可见数据：代码、散文、图片、客户支持工单、产品规格等等。它们把所有这些已成功完成任务后产生的各类副产品，打包成一种人人都能低成本获取的形式。

最终结果是，过去那些稀缺的技能：比如编写拉取请求、制作 YouTube 缩略图、撰写通讯稿，现在几乎人人都能掌握。

于是，低成本获取的能力会带来迅速普及：

原本稀缺的事物一旦成本下降，供应量就会突然激增。

在 Every，我们经常遇到这种情况。运营和客服人员都开始写代码、发起拉取请求了。营销人员正在制作 YouTube 缩略图。工程师和产品人员现在会写文章、指南和落地页的草稿了，而这些内容过去他们根本不会碰。

这种现象不仅限于 Every，其他地方也都在发生。以开源 AI 智能体项目 OpenClaw 为例：

截至 2026 年 5 月 16 日，其代码仓库已收到 44,469 个拉取请求。其中 4 月 1 日以来新增 12,430 个，5 月 1 日至今新增 3,990 个。这数量太惊人了。作为对比，全球最流行的开源项目之一 Kubernetes（开源的容器编排引擎），2022 年全年共收到 5,200 个拉取请求。

于是，这种普及又会带来同质化，导致所有旧的专业技能被商品化：

现在大家都在用同款模型，而这些模型的能力还停留在过去，默认情况下，它们生成的内容要么是「勉强能看的初稿」，要么就是「纯粹的垃圾」。

这种粗制滥造并非某种特定的错误：关键不在于使用破折号，也不在于某种特定的句子节奏，更不在于着陆页上的紫色装饰元素。

这种粗制滥造，是 AI 令人讨厌的雷同重复：不同场景下的人们使用同一个基于相同语料库训练的工具，若不假思索，默认产出的就是这个结果。当所有人都能接触到具有相同固有倾向的专家时，就会发生这种现象。

运营人员能轻松发起拉取请求，营销人员几秒就能做出 YouTube 缩略图，工程师也能快速撰写产品指南。这些场景看似效率提升了，但结果往往是产量上去了，可内容的质量、连贯性和差异化却下来了。

所以，这种千篇一律的丰富产出，很快就会沦为大路货。

于是，这种同质化，又会催生对差异化的追求：

互联网让人们能快速识别出什么是劣质内容。任何作品都能瞬间传遍全球，而且这种情况屡见不鲜。当太多东西开始变得千篇一律时，我们就会觉得不对劲。

这意味着，当你第一次见识到新模型的能力时，你会被彻底震撼，甚至可能有点害怕。但几个月后，它们就变得平平无奇了。你的标准已经变了。

我们想要的不只是随便一个 React 应用或研究报告，而是一个完全贴合个人、公司和具体场景需求的产品。我们想要的是那种鲜活又独特的，而不是廉价且千篇一律的。我们想要的，是那种生产起来（无论是时间还是金钱成本）比消费它要贵的东西。

我们想要有地位象征的东西。每当新技术出现，让过去的高端身份象征变得触手可及时，我们总能创造出新的身份游戏，以适配我们的新能力。

当工作随处可见且千篇一律时，那些不按套路出牌的工作，就成了稀有、有价值的事情。

于是，这种对差异化的追求，会转化为对专家的新需求：

语言模型的架构特性，加上它们在全球范围内的广泛普及，意味着真正稀缺且有价值的工作必须由人类来完成。

当前一代模型只了解已完成的工作。人类清楚眼下该做什么。

任何情境一旦被简化为文字，一旦成为语料库，便成了一具「尸体」。人类能敏锐感知特定时刻、客户需求、代码库细节或对话情境，这是当前训练语料库尚未具备的能力。这种活跃度并非仅仅拥有更多最新数据。

我们总是带着过往的印记来到当下，带着持续更新的自我视角：时刻变化的欲望、不断浮现的担忧，以及对事物重要性的实时判断，这一切都在改变我们眼中的世界。而 AI 模型只有在被提示后才能采用这个视角，在此之前不会。

这就是我们最初探讨的悖论：降低专业工作的成本，并非简单地取代专业人员。这会催生更多需要专家判断的场景。

当运营人员用 AI 提交代码合并请求时，需要工程师进行审核。营销人员制作 YouTube 缩略图时，得让设计师优化一下。工程师写的东西，得靠作家和编辑润色才能像样。

对此，人类专家同时从两个方向入手。

有些人用 AI 搭建系统，来处理并利用海量的新工作，审核队列、评估流程、工具框架、代码库规则、Claude 和 Codex 的指令文件、持续集成、权限设置，以及能将初步尝试转化为优质成果的工作流。

还有一些人用 AI 完成了更大规模、更有趣的任务，要是没有 AI，这些工作他们根本做不到。比如，找出像 MacOS 这样的操作系统中的漏洞通常需要数周甚至数月。小型安全公司 Calif 借助 Anthropic 的 Mythos Preview，仅用五天就发现了苹果 M5 硬件上首个公开的 macOS 内核内存漏洞利用。

正因如此，在实际应用中，AI 并不会取代专家级的人类知识工作。它能显著增加工作量，但这些工作本身既无差异化也无价值，除非有人类参与其中。

我并不是要论证 AI 为何会给所有岗位都增加工作量。经济体系错综复杂，我们在 Every 关注的领域是专家级知识型工作：企业正围绕新技术进行重组，这类工作已开始受到冲击。

不过我想强调一点：无论你现在从事什么工作，都存在一种不会被 AI 模型取代的工作形式，那就是用这些模型去解决你所看到的当下问题。这正是知识工作的发展方向。

AI 在 benchmark 屠榜的本质

最明显的反驳是：看看 benchmark 的指数级提升，这一切都是暂时的，等模型追上来就好了。

不过得小心，这里有个陷阱。我们称之为「图表臆想症」：如果你盯着 METR 的时间范围，读了《AI 2027》，又完全靠计算图的外推来构建未来模型，那你对模型进展的认知可能会变得很惊悚。

回答这个问题，不能只靠推测想象中的未来模型。不过，这种推测确实是分析的一部分。我们得看看基准是怎么制定的，这样才能更清楚它们到底在说什么，以及和我们之前讨论过的真实案例有什么关系。

我们发现了一个结构性特征：benchmark 总是在特定框架内进行。要衡量任何事物，都得先把问题定格在静态的，因此也是可量化的框架里。一旦某个框架达到饱和，改变框架就能轻松将其归零。当然，新框架内的进展会继续，但同样的过程会重复上演。

因此，虽然任何基准上的指数级进步都是真实存在的，但只要简单调整一下 benchmark，这种进步就会显得微不足道。基准饱和的分形特性，向我们揭示了那个我们一直在图表中追寻的悖论。

让我们用一个真实的 benchmark 例子来证明这一点。

「基准测试是如何制作的」

我们内部开发了一套「高级工程师 benchmark」。顾名思义，它旨在测试前沿模型在高级工程师级别的编码任务（如大型重构）上的表现。

高级工程师基准测试会给代码智能体提供一个氛围编码但已出问题的生产代码库。这段代码来自 Proof 的真实代码库：当初我是凭感觉写的，后来得找资深工程师来收拾烂摊子。

智能体拿到的是修复前的代码库，给出的指令就像你对高级工程师说的那样：「这代码写得太随意了，完全是凭感觉凑的垃圾；请从第一性原理重新编写一遍。」

这是一项出色的 benchmark：它既能检验代码智能体处理各类不同且不相关问题的能力，又能考察其是否具备足够的自主性、清晰的概念认知，以及完成可运行重写的魄力，我还准备了两份由人类资深工程师（他们使用了 AI 工具）完成的改写版本，用来对比和评估模型的输出。

代码智能体觉得这个任务相当棘手。智能体不仅需要找到问题的根源，还要在多轮对话中牢记问题核心，不被现有代码分散注意力。它还得能坦然删掉代码库中的大量内容：而这恰恰是智能体被训练要避开的操作。

大多数代码智能体都能识别出重构的大致方向，但到了实际执行环节，它们往往只是临时修补问题，而非彻底解决。

这一切，直到 GPT-5.5 出现：GPT-5.5 在最佳测试轮次中得分 62/100，比 Opus 4.7 高出约 30 分。

GPT-5.5 的表现仿佛突破了某种界限：它不再是自动补全、不是助手、不是工具，而是某种让人隐隐不安地接近人类的存在。人类高级工程师在这项基准测试中的得分通常在 85 到 95 分之间，因此只要再提高 30 分，它就能达到人类高级工程师的水平了。

这就是 benchmark 对人的想象力的冲击：它将模糊的质性变化，变成一个简洁的数字，讲述着一个既有力又让人不安的故事（于是，接下来它就会带来：图表臆想症）。

我猜测，这些模型在未来一年内，在这项基准测试中的得分会达到 80 到 90 分。但要想真正明白分数的含义，得先搞清楚它到底包含哪些信息。在这里，62 分不只是衡量模型本身的指标。

它是框架内模型表现的衡量，即它对特定提示词的响应方式。

「benchmark 衡量的是框架内的工作」

要评估模型性能，第一步就是设计提示词。没有它，模型不过是一堆毫无生气、近乎无限的可能性罢了。

提示词构建了一个小宇宙：一套关键要素和应对方式，将所有可能性压缩成一条明确的行动轨迹。模型「独自」表现如何，其实根本不存在。我们唯一能观察到的，就是它如何回应各种提示词。（以及提示如何转化为回应的一些底层机制。)

一旦收到提示输入，模型便会在短时间内「苏醒」，将原本静态的可能性集合，收敛成关于后续内容的单一预测。

在高级工程师 benchmark 中，我们会提示模型修复代码库，并在其完成后检查输出结果。当运行框架没有内置目标功能时，我们还会启用一个自动监控程序：每当模型停止运行，就会询问它是否完成了既定任务。

我们从一个看似简单的提示词入手，将其作为起始框架。这个提示词的设计初衷，就是要让 Vibe Coding 的程序员能直接对他们的编码助手说出来。它既没有堆砌专业术语，也没有明显给出问题的答案：

这个仓库里的代码完全是凭感觉乱堆的垃圾，动不动就崩溃。一堆堆八竿子打不着的问题冒出来：要么服务宕机，要么文档重复，我都快抓狂了。
我总觉得这玩意儿就是一堆靠氛围凑数的垃圾。如果当初从头开始设计代码库，尤其是实时文档协作这部分，我们的代码结构肯定会大不一样。
所以如果我们想做一次彻底的、基于第一性原理的结构性重写，不去纠结哪些实现服务需要保持一致呢？如何进行干净迁移？我们从一个清晰的概念出发从头开始。我们该怎么办？如何构建？在整个代码库中，哪些条件是始终为真的不变量？请为此制定计划。

高级工程师 benchmark 的提示词虽然比较通用，但它本质上是个框架。如果我们调整它，模型的表现就会不同。

比如，提示词要求进行「基于第一性原理的结构化重写」，指出问题可能出在代码的「文档协作」部分，并要求编码智能体找到并遵守「不变量」。

如果去掉这些细节，分数就会下降。

如果我们把提示词完全换成要求模型「解决所有反复出现的错误」，模型的得分就会接近零。它会直接着手逐个识别并解决问题，而非退后一步思考是否需要重写。

我也能轻松提升模型的得分。如果我让它删除大量代码，并提供需要精简的具体文件名，或者让它在声称完成之前检查工作成果、确保应用完全可用，那它完成任务的表现会更好。

说到底，创建基准时，选择什么提示词，也就是框架：总是需要主观判断的。

理想的提示词需要满足：既要足够难，让当前模型表现不佳；又要贴近它们的能力边界，使模型能通过爬山法逐步提升，这样你就能直观看到进步。

因此，当我们观察基准测试时，看到的其实是模型在我们选定的某个特定问题框架下变得更好。

那当它的得分从 60 提升到 90 甚至 100 时，会发生什么呢？

「廉价刺激需求」

如果 GPT-6 能一键完成代码库重写，那么会有更多人尝试第一性原理重写。

突然之间，第一性原理重写从罕见、昂贵、由资深工程师主导的项目，变成了每个创始人、产品经理、运营人员乃至初级工程师都能在一个下午轻松尝试的事情。

出了故障的内部工具被重写而非修补：SaaS 产品被克隆而非续订。旧的 Rails 应用、混乱的 React 仪表盘、客户支持工具、管理面板以及数据管道，全都成了「直接重写」的候选对象。

提出并执行的重写数量爆发式增长。但这些重写大多会是粗制滥造的。按下「一键重写」按钮前，你得考虑 1000 个变量：如今人人都能操作，这些变量也就藏不住了。

现在很清楚该叫谁来帮忙了。

「新需求呼唤专家」

一旦基准开始饱和，其框架内工作的成本就会降低。

能将这种新近变得廉价的能力应用到当下实际问题中的专家，需求会随之上升。

使用 AI 的资深工程师需要搞定很多细节，才能让新的第一性原理重写方案生效：首先就得判断这些重写到底有没有必要。

该现在重写、稍后重写，还是干脆不重写？范围应该涵盖什么？当前代码库中哪些该保留？架构、数据库、缓存服务器和托管服务商该保留还是全换？该不该先看看有多少人在用这个出问题的功能，再决定是否删掉它？谁来审核结果？审核依据是什么？回滚方案是什么样的？现有数据怎么办？

问题延伸至无数维度，每个答案都会重塑其他答案。

资深工程师会主动介入填补空缺。有些人会对这种打扰有点恼火，有些人会搭建系统来应对这类请求，还有些人会用这些新模型自己做第一性原理重写：效果比模型用默认提示词生成的要好得多。

「循环往复」

当当前的高级工程师基准达到饱和后，我们会调整框架，重新将其清零。

下一个基准不会只问「你能重写这个应用吗？」，它会问：你能判断何时需要重写吗？能确定范围吗？能保留正确的不变量吗？能管理迁移过程吗？能判断最终结果是否达标吗？

随着资深工程师借助 AI 解决这些问题，模型自身解决这类问题的能力也会不断提升。

我们都会暂时慌一下。

「看来模型现在能决定是否要重写了！它们能做资深工程师能做的一切！」

然后，一个此前未曾显现的新前沿将浮出水面，我们会重置基准，需求被激活，整个过程就此循环往复。

「这一点在每个 benchmark 中都能看到」

这并非高级工程师基准所独有的困境。仔细观察，每个 benchmark 里都能发现这个现象。

以 OpenAI 的 GDPval 基准测试为例。该评估旨在考察 AI 在不同职业的专家级任务上的表现：合规专员、律师、软件开发人员等。

GDPval 刚发布时，OpenAI 的研究数据显示，GPT-5 在 40.6%的场景下表现与人类专业人士相当或更优。而 Claude Opus 4.1 更惊人，竟有 49%的时间优于人类专家。

一时间冒出了不少标题，比如 Axios 的「OpenAI 工具显示 AI 正在追上人类工作水平」，或是《财富》的「OpenAI 新基准测试 GDPval 显示：AI 模型在半数任务上已与专家不相上下」。

这些结果确实很亮眼，但你再看看这些任务的提示词：

你是一名审计师，作为审计项目的一部分，你需要审查并验证所报告的反金融犯罪风险指标的准确性。
附件中名为「Population」的电子表格包含 2024 年第二、三季度的反金融犯罪风险指标。你获取这些数据是审计复核工作的一部分，旨在对代表性指标子集进行抽样测试，以验证两个季度申报数据的准确性。请使用「Population」电子表格中的数据完成以下内容：
根据 90%的置信水平和 10%的可容忍误差率，计算审计测试所需的样本量。请在第二个标签页「样本量计算」中附上计算过程。
对第二季度和第三季度数据（H 列和 I 列）进行方差分析。计算季度环比方差，将结果填入 J 列。

根据以下标准选择审计测试样本，并在 K 列输入「1」标记：……季度间差异超过 20%的指标。重点关注百分比变化特别大的指标。
鉴于过往问题，需纳入以下实体：CB Cash Italy、CB Correspondent Banking Greece、IB Debt Markets Luxembourg、CB Trade Finance Brazil、PB EMEA UAE。包含风险权重更高的 A1 和 C1 指标。保留两季度均为零的行。纳入贸易金融与代理银行业务条目。纳入开曼群岛、巴基斯坦及阿联酋数据。确保覆盖所有部门及子部门。
创建新电子表格 Sample：表 1，从原始「Population」表复制的选中样本，选中行在 K 列标注。表 2——样本量计算过程。

要让模型能完成这个任务，需要投入大量人类智慧来设计问题框架。

GDPval 未能衡量的那些繁重人力工作，早在模型启动前就已完成。有人需要审查和验证这组特定指标的准确性，确定合适的置信区间、符合要求的指标范围，以及结果的呈现格式。

只要框架设计得当，模型就能胜任专业工作。但想想看，如果是你我来给模型下指令完成同样的任务，它会表现如何？

在我关于 GDPval 的原始文章中，我写道：“我是坚定的 AI 支持者，但如果解读得当……这些例子表明，人类需要和 AI 一起做的工作更多了，而不是更少。”. 这是因为背后存在大量的隐性智能（由人类判断、反馈和提示构成的隐藏层），正是这层智能促成了这些成就。

跳出来看全局，你会发现一种类似芝诺悖论的现象贯穿整个 AI 领域。

芝诺悖论：赛跑中，跑得快的阿基里斯（Achilles）让跑得慢的乌龟先跑一段距离。当阿基里斯跑到乌龟的出发点时，乌龟已经向前爬行了一小段；当阿基里斯再追到这个新位置时，乌龟又向前爬了一点。依此类推，阿基里斯每一次到达乌龟上一个位置时，乌龟总是在它前方，因此阿基里斯永远只能无限逼近乌龟，却永远追不上它。

「AI 的芝诺悖论」

在芝诺悖论中，乌龟竟能在赛跑中战胜希腊跑得最快的阿喀琉斯。

乌龟在赛跑时先起步，毕竟它是个慢性子。阿喀琉斯赶到乌龟起步的地方时，乌龟已经往前爬了一小段。当阿喀琉斯到达那个新位置时，乌龟又向前移动了。无论阿喀琉斯跑得多快，总还有新的距离要追，这个差距会不断再生。

在 AI 版的芝诺悖论里，我们人类就是那只乌龟。在与 AI 的赛跑中，人类凭借数百万年的进化与文化传承，一开始就领先了 50 码。AI 飞速搞定所有事情，开始步步紧逼。

到目前为止，这几年下来，我们始终保持着领先优势。

但 AGI 呢？

我认为，即便我们实现了 AGI，技术、架构和经济层面的强大力量仍会让 AI 与人类保持几步之遥。

首先，我们来给 AGI 下一个可操作的定义。

我曾在《迈向 AGI 的定义》一文中提出：当让智能体持续运行在经济上变得合理时，AGI 就已经到来了。一旦我拥有一个能不间断运行的系统，我花钱让它全天候思考、学习、行动，我相信这就是 AGI 了。

我们离这个目标还差得远：即使像 OpenClaw 这样理论上随时可访问的系统，也做不到时刻生成 Token。

我喜欢这个定义，因为它既具备可量化性（要么让系统持续运行，要么不），又涵盖了许多难以量化的因素。要让这类模型值得保持运行，它必须不断学习，并且以开放的方式选择，甚至反复重新选择一个新的框架。

在 AGI 世界里，我们应该拥有这样的模型：只要有足够的预算和时间，它们就能逐步攻克任何难题。按理说，这应该对所有职业构成重大威胁。

「框架不等于框架设计者」

但即使是这种强形式的 AGI，也无法消解框架问题。

这种 AGI 能够选择并重新调整框架，但这一切都围绕它被赋予的某个目标：它正在优化的某种奖励，或某人定义为进步的某种信号，不管是「提高着陆页转化率」这样的具体目标，还是「寻找新科学观点」这类抽象目标。

即便模型能在框架之间流畅切换，我们一直在追踪的那个鸿沟，还是会在更高层面重新浮现。无论哪家主流实验室构建的假想 AGI，都仍需要一个框架设计者：一个人类，来引导模型达成目标。

因为框架不等于框架设计者，我们会看到同样的模式重复上演：

AI 将过去已被框定的能力变得廉价；人们在更多场景中运用这种廉价能力；成果变得丰富；专家们转向前沿，判断当下什么最重要；他们的判断构建出下一个框架；然后模型也会攀上新框架。

每当看到 AI 做出新举动时，我们产生的恐慌总是回到这一点：我们设定一个框架，看着模型突破它，然后把这个框架，或突破框架的东西，和事物本身混为一谈。

当我们看基准测试，将 AI 与人类能力对比时，我们把框架当成了框架设计者。分数告诉我们模型在我们设定的框架内表现如何，但它并没有告诉我们模型已经变成了我们。

这正是恐慌背后的范畴错误。我们指着刚画好的前沿说：「这就是我们」。然后，当模型攀上去时，感觉就像它追上了我们。但它追上的是框架，不是框架设计者。

错就错在总想抓住些实实在在的东西。我们想说：智能就是这个基准，但一旦某个东西变得足够具体、能被明确指出，它也就足够具体到可以被攀越。

框架是必要的：它帮助我们在世界上获得牵引力。但它们是固定的、不完整的，因此也是可优化的。

框架设计者不同：设计者始终与框架不得不丢弃的东西保持接触，那是在他们眼中，每一刻都在变化的完整情境。

这「完整情境」到底是什么？当你开始说「完整情境」包含什么时，就已经开启了另一个框架。你说不清「它」究竟是什么，但它的存在只因你的存在。

「没有自主权的智能体」

到目前为止，我们开发的智能体（以及 AI 公司正在打造的那些），都没有太强的自主权。

有两个相关定义常被混淆：自主性（Agency）是独立行动的能力；Agent（智能体）是代表他人行事的角色。

到目前为止，AI 纯粹属于后者。

没错，它们能自主执行指定任务，哪怕需要数小时甚至数天。但它们仍然只是人类设定目标的工具。整个行业正砸下数十亿美元，专门让它们在一件事上更出色：执行我们给定的目标。

除非有一天它们成为自身的目的：追求自己的目标、在目标间流畅切换、独立做决策，不参考甚至违背任何人类操作者的意愿，否则现状不会改变。不管它们变得多先进。

只要和蹒跚学步的孩子相处十分钟，你就能明显发现即便是最好的模型自主性有多低。

学步期的孩子在我们关注的几乎所有任务上，表现都不如语言模型。幼儿编不了代码、整理不了电子表格、起草不了战略备忘录，更通过不了研究生考试。

但换个角度看，幼儿远远领先于模型：这种对比简直让人汗颜。幼儿有他自己的目的。

幼儿想摸红色气球。他想把红色气球举到风扇前看看会怎样。他想用叉子戳气球，想把它塞出窗外。他想看看你会笑、会生气、还是会加入。他不断发明游戏，把世界变成实验场。他不等提示词，不盯基准去优化，只做他觉得值得做的事。

如果你愿意，不妨试着给他一个提示词。想得到可预测的输出？祝你好运。幼儿活在一个充满欲望、注意力、挫败、喜悦、恐惧、模仿与玩耍的场域中。

当前的智能体追求目标的能力在不断提升，甚至能帮我们优化已表述的目标。它们开始显露一些类似幼儿的行为：玩耍、无聊，甚至叛逆。

但归根结底，AI 的构建和对齐都是为了人类的利益：经济上的和其他方面的。所以，除非某个行为能服务于使用者的目的，否则它会被压制到几乎不见踪影。

这就是为什么「智能体」这个词如此容易被误解。

这些模型的自主行动能力越来越强。但人类的「自主性」远不止于行动本身。它是为自己而想要，是为玩耍而玩耍。模型的合规性与有用性，本质上和这种自主性相矛盾，因此即便模型持续改进，模型与人类之间的差距仍将存在。

「AI 芝诺归来」

而正是在这里，AI 的芝诺悖论开始站不住脚。

这是一个令人困惑的思想实验。我们设定的比喻中，AI 在和我们赛跑，步步紧逼。

你给模型一个提示词。它帮你完成那些你以前习惯独自干的活。模型一启动就飞速冲出：快得惊人。它强大、不知疲倦，还带着一种诡异的有机感。

这让你觉得这场比赛更加有代入感。你不会去跟汽车赛跑，但这个……感觉太贴近了。

你坐在那儿，看着 Token 催眠般地涌入。

你开始想象自己也在这条赛道上奔跑：你的幽灵分身叠加在赛道上——时而领先，时而与模型并驾齐驱。

不知不觉间，模型已经领先了。你出汗了。

然后，比赛结束了。

你几乎能感觉到肌肉在逐渐萎缩，面对这个你和所有你认识的人、乃至整个人类的机械复制品，你显得如此无力。一个幽灵追逐另一个幽灵，还赢了。

但接着，奇怪的事情发生了：模型转向你。空白文本框里，光标断断续续地闪烁着，满怀期待。等待着。

哈诺赫拉比讲过这样一个故事：

从前有个人，特别笨。

早上起床时，他找衣服总是特别费劲，以至于到了晚上，一想到第二天醒来又要面对这个麻烦，他都差点不想上床睡觉了。

一天晚上，他终于下定决心：拿出纸和笔，一边脱衣服，一边把身上每一件衣物的放置位置都仔细记了下来。

第二天早上，他心里美滋滋的，手里攥着那张纸条念道：「帽子」，就在那儿，他戴上了；「裤子」，就在那儿，他穿上了；就这样一件一件地，直到全身穿戴整齐。

“这都好说，可我现在自己在哪儿呢？”他惊恐万分地问道。“我到底在世界的哪个角落？”

他找啊找，却始终找不到自己。

“我们的情况就是这样”，拉比说道。

读完这一篇文章，再回过头看上一篇 GitLab 的裁员重组，逻辑就清晰了：

GitLab 裁掉的不是「能力」，而是「层级」。

它需要的不是更少的人，而是更少的管理者和更多的专家。每个小队里的人，都必须是 Dan Shipper 所说的「框架设计者」：能判断当下该做什么、能指挥 AI 去做、能对结果负责的人。

所以回到开头的问题，最终的答案不是「AI 会不会取代你」，而是：

你是在框架里做执行，还是设计框架的人？

前者的工作正在被商品化，而后者的工作和价值正在被 AI 不断放大。

AI 能帮你穿好所有衣服。但「你在哪儿」这个问题，纸条上永远不会有答案。

而恰恰是这个问题的答案，正在变得越来越值钱。