AI工程化,不是把ChatGPT用得更熟

这是「AI工程化手记」的第一篇。

我不打算在这里追 AI 新闻，也不想把每一次模型更新都写成一次革命。这个号更关心一个具体问题：

AI 到底怎样进入真实工作流？

不是演示，不是玩具，不是让它写一段看起来还行的文字。而是把一个真实任务交出去，让它能读资料、拆步骤、调用工具、留下记录，并且产出一个可以被检查的结果。

过去一段时间，我越来越明确地感到，AI 的使用方式正在分成两类。

一类人把 AI 当成聊天框：问一句，答一句，临时解决一个问题。

另一类人开始把 AI 当成可以委派的工作系统：给目标，给上下文，给工具，设约束，留记录，再复盘结果。

我理解的 AI 工程化，就是后面这件事。

先看一个数字

OpenAI 和几位学术合作者在论文《The Shift to Agentic AI: Evidence from Codex》中披露过一个数字：在 OpenAI 内部员工的 ChatGPT + Codex 合计 output token 中，Codex 占 99.8%。

这个数字不能简单理解成「99.8% 的工作都由 AI 完成」。它说的是 token 份额，不是生产率，也不是工作占比。

但它至少说明一件事：在最前沿的团队里，AI 已经不只是用来聊天、查资料、写几段文字。它开始承接更长、更完整的工作。

同一篇论文还有一个对照：普通个人账户里，28 天活跃用户中使用 Codex 的比例不到 1%，但 Codex 已经占这些用户 ChatGPT + Codex 合计 output token 的 16.5%。

这组数字对我更有启发。

大多数人还没开始用 agentic 工具。但一旦有人开始用，用法强度会明显变高。换句话说，同一套模型、同一类产品，不同人的使用方式已经拉开了。

差距不只来自模型。差距来自你把 AI 当成「咨询台」，还是当成「可以派活儿的执行系统」。

问答，和委派

我把今天的 AI 使用方式粗略分成两类。

第一类是问答式使用。

你问一个问题，它给一个答案。你丢一段文字，它帮你润色。你给一个需求，它写一份草稿。每次交互的单位是「一次对话」。

这种用法当然有价值。我自己也每天用。

问题在于，它很难沉淀。每一次都要重新解释背景，每一次都靠临场发挥。上一轮对话里的经验，很少自动变成下一轮任务的基础。

第二类是委派式使用。

你不是问它一句话，而是把一整段工作交给它。它需要读文件、查资料、改代码、跑命令、生成结果，必要时还要自己检查一遍。

这里的交互单位不再是「一句提示词」，而是「一个任务」。

我自己的知识库就是按这个思路搭的。原始资料放在 raw/，摘要进入 wiki/sources/，稳定概念沉淀到 wiki/concepts/，最后从输出目录生成文章。

AI 在这个系统里不是只回答我一个问题。它要沿着目录、索引、规则和来源工作。它有上下文，也有边界。

这就是一个很小的个人 harness。

这个词可以先粗略理解为：围绕模型搭起来的一整套工作环境。

模型很重要，但系统开始更重要

很多人讨论 AI，第一反应还是问：哪个模型最强？

这个问题当然重要。但它已经不是全部。

LangChain 在 2026 年发布的《State of Agent Engineering》调查报告里，统计了 1,340 位一线从业者。其中一个数据是：76% 的组织在生产或开发中同时使用多个模型。还有 57% 的组织不做模型微调，而是用基础模型加提示词、检索和外部系统。

这说明一个变化：模型还是底座，但大量差异开始转移到模型外面。

外面是什么？

是工具，是上下文，是评估，是权限，是日志，是运行环境，是你怎么让 AI 在一套可控系统里做事。

行业里有一个很简洁的说法：

Agent = Model + Harness

智能体不是一个模型就够了。模型要接上工具，要拿到合适的信息，要知道什么时候停，要能被观察，要能被验收。

一个强模型，如果被塞进混乱的上下文里，拿着一堆重叠工具，没有检查点，也没有日志，它一样会跑偏。

这就像招了一个能力很强的新人，然后不给工作手册，不给审批流程，也没人复核他的活儿。出事不是意外。

所以我现在越来越少纠结单次 prompt 漂不漂亮，更关心工作流能不能复用。

漂亮的 prompt 可以解决一次问题。稳定的系统才能解决一类问题。

只有速度不够

过去一年，很多人开始用自然语言写代码、做页面、搭工具。有人把这种方式叫 Vibe Coding。

我不反对 Vibe Coding。它很有用。

它让很多原本不会写代码的人，第一次可以做出自己的小工具。它降低了入口门槛，也让原型开发快了很多。

但如果任务进入真实业务，问题就变了。

能跑，不等于可靠。

能生成，不等于能维护。

能一次成功，不等于下次还能成功。

当你处理的是生产系统、客户数据、公司流程、长期维护的知识库，光靠「感觉不错」就不够了。

这时需要的不是更会聊天，而是一套工程化能力：

任务怎么拆；

上下文怎么给；

工具怎么选；

结果怎么验；

错误怎么复盘；

成本怎么控制。

这些听起来不像流量词，但它们决定 AI 能不能真的进入工作。

AI 工程化到底包括什么

我现在先把它拆成四件事。

第一件事是上下文工程。

很多人的直觉是：资料给得越多，AI 越聪明。

这个直觉经常会出问题。

上下文不是垃圾桶。它更像工作台。你把所有东西都堆上去，AI 不一定更清楚，反而可能更难抓住重点。

真正要做的是：给最少但最高信号的信息。核心规则放前面，背景资料按需加载，过期内容及时清掉。

第二件事是可观测性。

传统软件里，代码大体能解释系统会怎么运行。但 Agent 系统不一样。它会临时决定调用哪个工具、读哪个文件、走哪条路径。

所以你需要 trace，也就是执行轨迹。

没有 trace，你只知道结果错了，却不知道它在哪里错。是资料读错了，工具选错了，还是中间判断跑偏了？

LangChain 的调查里有一组数据：89% 的组织已经实现了可观测性，62% 有详细执行追踪。在生产环境用户里，这两个比例更高。

这说明「看得见」已经不是锦上添花。它是调试、复盘和成本归因的基础。

第三件事是评估。

很多人对 AI 的验收方式还是「我看了一眼，感觉可以」。

这在个人小任务里可以凑合。但如果你希望 AI 稳定承担任务，就要有更明确的评价标准。

什么算好？什么算错？哪些错误不能接受？同一个任务下次再跑，结果有没有变好？

这些问题不回答，AI 就只能靠运气。

第四件事是边界。

AI 能力越强，越要画边界。

哪些文件能改，哪些不能改？哪些命令能跑，哪些必须确认？哪些结果可以自动提交，哪些必须人工复核？

我不太相信「完全放手」这个说法。至少在目前阶段，更现实的方式是：信任，但验证。

人的价值没有消失，只是换了位置

看到这里，可能有人会问：如果 AI 能承担越来越多任务，人还剩下什么？

我的判断是，人不会从系统里消失，但位置会变化。

Anthropic 针对约 40 万次 Claude Code 会话、23.5 万人的研究里，有一个很有意思的分工：人做了大约 70% 的规划决策，Claude 做了大约 80% 的执行决策。

这个比例很符合我的体感。

人更适合定目标、定标准、判断取舍。AI 更适合执行、搜索、生成、批量处理。

也就是说，人的核心价值不再只是亲手完成每一个细节，而是：

把问题讲清楚；

把任务拆明白；

把标准定准确；

把结果验出来。

这对工程师是变化，对非技术背景的人也是机会。

你不一定要先变成程序员，才能用好 AI。财务、销售、运营、管理、法律、咨询，这些经验都可以变成指挥 AI 的本钱。

前提是你真的懂那个任务。

AI 可以帮你补执行力，但不能替你理解问题。

这个号会写什么

「AI工程化手记」后面会围绕一个问题写：

普通个人和小团队，怎样把 AI 变成可复用、可检查、可持续改进的工作系统？

我会重点记录几类内容：

上下文工程：怎样给 AI 信息，怎样减少上下文污染；

Agent 工作流：怎样把任务从问答变成委派；

Codex 实践：怎样让 AI 读代码、改文件、跑命令、交付结果；

知识库搭建：怎样让资料从收藏变成可调用的资产；

trace 和 eval：怎样记录过程，怎样判断结果是否可靠；

自媒体生产流：怎样用 AI 辅助选题、写稿、查源、排版和复盘。

我会尽量少写抽象判断，多写实际流程。能给文件结构，就给文件结构；能给检查清单，就给检查清单；踩过坑，也会写清楚。

这篇文章算是开头。

我想先把一个基本判断放在这里：

AI 工程化，不是把 ChatGPT 用得更熟。

它是把 AI 放进一套系统里，让它可以被委派、被约束、被观察、被评估。

当大多数人还在和 AI 聊天时，少数人已经开始把一整段工作交出去，然后把自己的注意力留给判断、取舍和负责。

这可能就是接下来几年真正拉开差距的地方。

下一篇，我会写上下文工程：为什么同一个 AI，聊久了会变笨，以及我怎么用文件、索引和按需加载来处理这个问题。

主要资料来源

OpenAI / Columbia / Wharton / Duke，《The Shift to Agentic AI: Evidence from Codex》：Codex output token 份额、个人用户使用比例、并发管理 Agent 等数据。
LangChain，《State of Agent Engineering》：1,340 位受访者、多模型使用、可观测性、执行追踪、离线/在线评估等数据。
OpenAI，《Harness Engineering: Leveraging Codex in an Agent-First World》：Harness Engineering 与 Codex 实践。
Anthropic，《Agentic Coding and Persistent Returns to Expertise》：Claude Code 会话研究，人类规划与 AI 执行的分工。
Kimi，《Agent Swarm: Scale Out, Not Just Up》：多 Agent 并行与 Agent Swarm 实践。