这是「AI工程化手记」的第一篇。
我不打算在这里追 AI 新闻,也不想把每一次模型更新都写成一次革命。这个号更关心一个具体问题:
AI 到底怎样进入真实工作流?
不是演示,不是玩具,不是让它写一段看起来还行的文字。而是把一个真实任务交出去,让它能读资料、拆步骤、调用工具、留下记录,并且产出一个可以被检查的结果。
过去一段时间,我越来越明确地感到,AI 的使用方式正在分成两类。
一类人把 AI 当成聊天框:问一句,答一句,临时解决一个问题。
另一类人开始把 AI 当成可以委派的工作系统:给目标,给上下文,给工具,设约束,留记录,再复盘结果。
我理解的 AI 工程化,就是后面这件事。
先看一个数字
OpenAI 和几位学术合作者在论文《The Shift to Agentic AI: Evidence from Codex》中披露过一个数字:在 OpenAI 内部员工的 ChatGPT + Codex 合计 output token 中,Codex 占 99.8%。
这个数字不能简单理解成「99.8% 的工作都由 AI 完成」。它说的是 token 份额,不是生产率,也不是工作占比。
但它至少说明一件事:在最前沿的团队里,AI 已经不只是用来聊天、查资料、写几段文字。它开始承接更长、更完整的工作。
同一篇论文还有一个对照:普通个人账户里,28 天活跃用户中使用 Codex 的比例不到 1%,但 Codex 已经占这些用户 ChatGPT + Codex 合计 output token 的 16.5%。
这组数字对我更有启发。
大多数人还没开始用 agentic 工具。但一旦有人开始用,用法强度会明显变高。换句话说,同一套模型、同一类产品,不同人的使用方式已经拉开了。
差距不只来自模型。差距来自你把 AI 当成「咨询台」,还是当成「可以派活儿的执行系统」。
问答,和委派
我把今天的 AI 使用方式粗略分成两类。
第一类是问答式使用。
你问一个问题,它给一个答案。你丢一段文字,它帮你润色。你给一个需求,它写一份草稿。每次交互的单位是「一次对话」。
这种用法当然有价值。我自己也每天用。
问题在于,它很难沉淀。每一次都要重新解释背景,每一次都靠临场发挥。上一轮对话里的经验,很少自动变成下一轮任务的基础。
第二类是委派式使用。
你不是问它一句话,而是把一整段工作交给它。它需要读文件、查资料、改代码、跑命令、生成结果,必要时还要自己检查一遍。
这里的交互单位不再是「一句提示词」,而是「一个任务」。
我自己的知识库就是按这个思路搭的。原始资料放在 raw/,摘要进入 wiki/sources/,稳定概念沉淀到 wiki/concepts/,最后从输出目录生成文章。
AI 在这个系统里不是只回答我一个问题。它要沿着目录、索引、规则和来源工作。它有上下文,也有边界。
这就是一个很小的个人 harness。
这个词可以先粗略理解为:围绕模型搭起来的一整套工作环境。
模型很重要,但系统开始更重要
很多人讨论 AI,第一反应还是问:哪个模型最强?
这个问题当然重要。但它已经不是全部。
LangChain 在 2026 年发布的《State of Agent Engineering》调查报告里,统计了 1,340 位一线从业者。其中一个数据是:76% 的组织在生产或开发中同时使用多个模型。还有 57% 的组织不做模型微调,而是用基础模型加提示词、检索和外部系统。
这说明一个变化:模型还是底座,但大量差异开始转移到模型外面。
外面是什么?
是工具,是上下文,是评估,是权限,是日志,是运行环境,是你怎么让 AI 在一套可控系统里做事。
行业里有一个很简洁的说法:
Agent = Model + Harness
智能体不是一个模型就够了。模型要接上工具,要拿到合适的信息,要知道什么时候停,要能被观察,要能被验收。
一个强模型,如果被塞进混乱的上下文里,拿着一堆重叠工具,没有检查点,也没有日志,它一样会跑偏。
这就像招了一个能力很强的新人,然后不给工作手册,不给审批流程,也没人复核他的活儿。出事不是意外。
所以我现在越来越少纠结单次 prompt 漂不漂亮,更关心工作流能不能复用。
漂亮的 prompt 可以解决一次问题。稳定的系统才能解决一类问题。
只有速度不够
过去一年,很多人开始用自然语言写代码、做页面、搭工具。有人把这种方式叫 Vibe Coding。
我不反对 Vibe Coding。它很有用。
它让很多原本不会写代码的人,第一次可以做出自己的小工具。它降低了入口门槛,也让原型开发快了很多。
但如果任务进入真实业务,问题就变了。
能跑,不等于可靠。
能生成,不等于能维护。
能一次成功,不等于下次还能成功。
当你处理的是生产系统、客户数据、公司流程、长期维护的知识库,光靠「感觉不错」就不够了。
这时需要的不是更会聊天,而是一套工程化能力:
任务怎么拆;
上下文怎么给;
工具怎么选;
结果怎么验;
错误怎么复盘;
成本怎么控制。
这些听起来不像流量词,但它们决定 AI 能不能真的进入工作。
AI 工程化到底包括什么
我现在先把它拆成四件事。
第一件事是上下文工程。
很多人的直觉是:资料给得越多,AI 越聪明。
这个直觉经常会出问题。
上下文不是垃圾桶。它更像工作台。你把所有东西都堆上去,AI 不一定更清楚,反而可能更难抓住重点。
真正要做的是:给最少但最高信号的信息。核心规则放前面,背景资料按需加载,过期内容及时清掉。
第二件事是可观测性。
传统软件里,代码大体能解释系统会怎么运行。但 Agent 系统不一样。它会临时决定调用哪个工具、读哪个文件、走哪条路径。
所以你需要 trace,也就是执行轨迹。
没有 trace,你只知道结果错了,却不知道它在哪里错。是资料读错了,工具选错了,还是中间判断跑偏了?
LangChain 的调查里有一组数据:89% 的组织已经实现了可观测性,62% 有详细执行追踪。在生产环境用户里,这两个比例更高。
这说明「看得见」已经不是锦上添花。它是调试、复盘和成本归因的基础。
第三件事是评估。
很多人对 AI 的验收方式还是「我看了一眼,感觉可以」。
这在个人小任务里可以凑合。但如果你希望 AI 稳定承担任务,就要有更明确的评价标准。
什么算好?什么算错?哪些错误不能接受?同一个任务下次再跑,结果有没有变好?
这些问题不回答,AI 就只能靠运气。
第四件事是边界。
AI 能力越强,越要画边界。
哪些文件能改,哪些不能改?哪些命令能跑,哪些必须确认?哪些结果可以自动提交,哪些必须人工复核?
我不太相信「完全放手」这个说法。至少在目前阶段,更现实的方式是:信任,但验证。
人的价值没有消失,只是换了位置
看到这里,可能有人会问:如果 AI 能承担越来越多任务,人还剩下什么?
我的判断是,人不会从系统里消失,但位置会变化。
Anthropic 针对约 40 万次 Claude Code 会话、23.5 万人的研究里,有一个很有意思的分工:人做了大约 70% 的规划决策,Claude 做了大约 80% 的执行决策。
这个比例很符合我的体感。
人更适合定目标、定标准、判断取舍。AI 更适合执行、搜索、生成、批量处理。
也就是说,人的核心价值不再只是亲手完成每一个细节,而是:
把问题讲清楚;
把任务拆明白;
把标准定准确;
把结果验出来。
这对工程师是变化,对非技术背景的人也是机会。
你不一定要先变成程序员,才能用好 AI。财务、销售、运营、管理、法律、咨询,这些经验都可以变成指挥 AI 的本钱。
前提是你真的懂那个任务。
AI 可以帮你补执行力,但不能替你理解问题。
这个号会写什么
「AI工程化手记」后面会围绕一个问题写:
普通个人和小团队,怎样把 AI 变成可复用、可检查、可持续改进的工作系统?
我会重点记录几类内容:
上下文工程:怎样给 AI 信息,怎样减少上下文污染;
Agent 工作流:怎样把任务从问答变成委派;
Codex 实践:怎样让 AI 读代码、改文件、跑命令、交付结果;
知识库搭建:怎样让资料从收藏变成可调用的资产;
trace 和 eval:怎样记录过程,怎样判断结果是否可靠;
自媒体生产流:怎样用 AI 辅助选题、写稿、查源、排版和复盘。
我会尽量少写抽象判断,多写实际流程。能给文件结构,就给文件结构;能给检查清单,就给检查清单;踩过坑,也会写清楚。
这篇文章算是开头。
我想先把一个基本判断放在这里:
AI 工程化,不是把 ChatGPT 用得更熟。
它是把 AI 放进一套系统里,让它可以被委派、被约束、被观察、被评估。
当大多数人还在和 AI 聊天时,少数人已经开始把一整段工作交出去,然后把自己的注意力留给判断、取舍和负责。
这可能就是接下来几年真正拉开差距的地方。
下一篇,我会写上下文工程:为什么同一个 AI,聊久了会变笨,以及我怎么用文件、索引和按需加载来处理这个问题。
主要资料来源
OpenAI / Columbia / Wharton / Duke,《The Shift to Agentic AI: Evidence from Codex》:Codex output token 份额、个人用户使用比例、并发管理 Agent 等数据。
LangChain,《State of Agent Engineering》:1,340 位受访者、多模型使用、可观测性、执行追踪、离线/在线评估等数据。
OpenAI,《Harness Engineering: Leveraging Codex in an Agent-First World》:Harness Engineering 与 Codex 实践。
Anthropic,《Agentic Coding and Persistent Returns to Expertise》:Claude Code 会话研究,人类规划与 AI 执行的分工。
Kimi,《Agent Swarm: Scale Out, Not Just Up》:多 Agent 并行与 Agent Swarm 实践。
夜雨聆风