AI时代,一个产品经理的认知地图
去年九月,我第一次用豆包帮我推敲一个产品方案。那天晚上,我看着屏幕上AI生成的分析框架,心想:这东西能用。
然后一切开始加速。
AI写我的日报、我的周报、我的需求文档。AI画我的原型图、Coding我的系统。我从一个AI的使用者,变成了AI工作流的构建者——搭问答系统、做Agent智能体、用AI IDE写代码。九个月的时间,从原理到技术到应用,我把整条链路走了一遍,除了模型训练,什么都碰了。
AI让我的工作更有成效、产出更有价值,让同事满意、领导认可、客户买单。按马斯洛的说法,我应该站在需求金字塔的高处——自我实现,无比快乐。
但是并没有。
每次做成一件过去做不到的事,喜悦并不会持续太久,随之而来的是一种止不住的心慌。上个月刚学会的框架,这个月就有了替代品。我精心搭建的工作流,可能下一次模型更新就得重来。
我不确定自己此刻正在做的事情,一年后是否还有意义。
这种焦虑驱动着我去想一个问题:如果工具注定会被淘汰,那什么东西不会?
我开始回头看自己这九个月到底做了什么。不是看用了哪些AI产品——那些确实在不停地换,而是看,我在”用AI解决问题”这件事里,反复调用的到底是什么能力。
当我设计知识管理系统时,帮我理清结构的不是任何AI工具的教程,是我大学时学的数据库理论。当我构建Agent的多阶段执行流水线时,让流程可靠运转的不是Prompt技巧,是控制论里的反馈回路思想。当我做业务的需求推演时,让我看穿表面需求的不是竞品分析,是第一性原理。
数据建模,1970年代的学问。信息架构,1990年代的概念。系统论,1950年代的理论。第一性原理,古希腊。
这些东西,十年前是前沿,二十年前是前沿,今天依然是前沿。它们从未过时,因为它们不是某一代技术的产物,而是思考本身的结构。
AI没有让这些能力贬值。恰恰相反,它让这些能力变得比任何时候都重要。
当AI可以帮任何人在十分钟内生成一份产品方案,”会写方案”就不再是竞争力。竞争力变成了:你能不能判断这份方案的结构是否成立、逻辑是否自洽、有没有遗漏关键约束。这个判断力,靠的是信息架构和系统思维,不是AI。
当AI可以帮任何人搭建一个Agent,”会做Agent”也不再是壁垒。壁垒变成了:你能不能设计一个在异常情况下依然可靠的执行流程,能不能定义清楚每一步的输入输出边界。这个能力,靠的是流程分解和数据建模,不是AI。
AI把”执行”的成本降到了接近零。但执行成本越低,”知道该执行什么”的价值就越高。而”知道该执行什么”,恰恰是那些元知识在决定的。
它们不是上一个时代的遗产,它们是每一个时代的地基。只不过在AI时代,地基上能盖的楼,突然高了很多。
带着这个认知,梳理一下这九个月走过的AI学习路径。从模型,到技术栈,到应用落地——不是教程,而是我想明白的几件事。
一、模型:地基在变厚
2022年底,ChatGPT 3.5发布,标志着我们正式进入以大模型为核心的AI时代。
三年过去了,模型的基础能力一路狂飙。推理能力从”能聊天”进化到”能做数学题、写代码、分析复杂业务逻辑”。上下文窗口从4K Token扩展到百万级。API调用成本下降了几十倍。多模态能力从文本扩展到了图像、语音、视频。响应速度从”等几秒”变成了实时流式输出。
这背后有一条被反复验证的规律:缩放定律(Scaling Law)。简单说,模型越大、数据越多、算力越强,能力就越强。而这条曲线到目前为止没有撞到天花板的迹象。
年初龙虾的爆火让大家第一次真切感受到了模型能力的上限可以有多高——虽然它并不经济,也不具备大规模商业化的条件,但它证明了一件事:模型能力的天花板,远比我们想象的高。
这意味着什么?意味着你今天觉得AI”还差点意思”的那些场景,大概率不是方向错了,只是时间没到。模型会越来越强,也会越来越便宜。你要做的不是等它变强,而是在它变强之前,想清楚拿它来解决什么问题。
但有一点需要先想清楚:模型越来越强,跟我有什么关系?
坦率地说,绝大多数人吃不到基座模型的红利。预训练一个大模型需要的算力、数据和资金,不是普通公司能承受的。所以,不要傻乎乎地去啃Transformer架构、去学训练算法——除非打算去大厂做算法研究员。
真正的红利在应用层。红杉资本在AI峰会上给出了一个保守预测:AI应用市场的规模在万亿美金以上。这意味着,围绕大模型做应用、做工程、做落地,才是绝大多数人的战场。
但”做AI应用”到底意味着什么?很多人的理解停留在”接个API、写个Prompt”。实际上一个完整的AI项目涉及的工作远比想象的多。我把它拆解成三个圈层:
核心圈——造模型、调模型。这是技术纵深最大的地方,门槛最高,离普通人也最远。
工程圈——架构设计、模型调优、编排层设计、提示词工程、数据工程、模型测评。这是把模型能力转化为业务价值的地方,含金量高、壁垒也高。
外围圈——工具选型、后台运维、实施交付。这些工作必须有人做,但可替代性强,壁垒低。
对于绝大多数从业者来说,核心战场在工程圈。 下面我把每个圈层展开讲讲,你可以对照自己的位置,看看自己正在哪一层、应该往哪一层走。
核心圈:造模型
模型全训练。 做的事情是从零开始”造”一个大模型。先用海量数据做预训练,让模型学会语言的基本规律;再通过微调让它适应特定任务;最后用强化学习(比如RLHF)教它什么是”好的回答”。
打个比方,这就像从炼钢开始造一辆车。一次预训练的成本动辄几千万甚至上亿,只有头部大厂和研究院才会做。普通公司不会碰,但作为框架的起点,你需要知道它的存在——因为它决定了你后面所有工作的”原材料”是什么品质。
工程圈:把模型变成产品
这是整个AI项目中含金量最高的部分,也是真正决定项目成败的地方。
整体架构设计。 这一层回答的是整个AI项目最根本的问题:用哪个大模型?知识库怎么建?数据怎么流转?AI跟现有业务系统怎么对接?
打个比方,这就像盖楼之前的建筑设计图。图纸画错了,后面砌的每一块砖都在错误的位置上。架构设计是一家公司真正的知识产权和技术壁垒——代码可以开源,架构思想抄不走。它要求设计者同时理解AI的能力边界和业务的真实需求,这也是为什么这一层最依赖系统思维和数据建模这些”老学问”。
模型调优。 架构定了之后,这一层做的是”让模型在你的场景里变得更聪明”。常见的手段包括后训练(在你自己的数据上继续训练模型)和RAG(让模型在回答前先检索你的知识库,而不是纯靠记忆)。
如果说基座模型是一个刚毕业的高材生,那模型调优就是岗前培训——让他熟悉你公司的业务、你的客户、你的行业术语。高材生的底子(基座模型的能力)你改不了,但培训的好坏直接决定他能不能上岗干活。这一层是项目的核心技术策略。
编排层设计。 模型再聪明,也只能一次回答一个问题。但真实的业务场景往往不是一个问题,而是一连串有先后依赖的任务。比如”帮客户处理一笔退款”,背后是:确认订单→查物流状态→核实退款政策→执行退款→通知客户——五个步骤,步步相扣。
编排层做的就是这件事:把一个复杂任务拆解成多个步骤,安排好执行顺序,处理好步骤之间的数据传递,并在出错时决定是重试、回退还是跳过。 这就是业界常说的Agent、Workflow、Pipeline背后的本质——不管叫什么名字,核心都是”编排”。
打个比方,如果说大模型是一个聪明的大脑,那编排层就是给这个大脑配上一套神经系统和四肢。大脑再聪明,没有手脚的协调,也只能坐在那里说话。
目前市面上有不少现成的Agent平台——Coze、Dify、n8n、Langchain——它们能帮你快速搭出一个可运行的流程。但工具解决的是”怎么搭”的问题,编排层设计真正要回答的是”搭成什么样”:任务怎么拆解?每一步的输入输出边界是什么?出错了怎么回退?多个Agent之间怎么协作?这些问题,工具不会替你想。
当业务逻辑足够复杂时,甚至可能需要自研编排方案,而不是受限于某个平台的能力上限。编排层的设计质量,直接决定了AI系统能处理多复杂的任务、能在多极端的情况下保持可靠。
提示词工程。 这一层做的事情远比大多数人想象的要重。不是写几句Prompt让AI”听话”,而是要把公司的每一个业务流程、每一条操作规范,翻译成大模型能理解和执行的”标准操作程序”。
打个比方,这就像给新员工写入职手册。你得告诉他:遇到退款请求先确认订单号、然后查物流状态、再判断是否符合退款政策、最后用什么话术回复客户——整套逻辑都要写清楚。这一层的好坏完全取决于你对业务的理解深度,而不是你对AI技术的掌握程度。一个不懂业务的AI工程师,写不出好的提示词;一个深耕业务十年的老手,经过简单培训就能写出极好的提示词。
数据工程执行。 架构验证完、核心策略确定之后,就进入了”上书”阶段。如果说架构设计是在搭建图书馆的书架结构,那数据工程就是一本一本把书放到正确的位置上。
你需要跟各个业务部门的专业人员协作——找法务要合同模板,找财务要报表规范,找运营要历史工单数据——然后清洗、标注、验收,确保每一份数据都是干净的、结构化的、可被AI消费的。这是脏活累活,但也是公司的核心数据壁垒。你的模型别人可以换,你的数据别人拿不走。
模型测评。 模型调好了、数据灌进去了,怎么知道效果好不好?这一层做的就是”考试”。
但不是简单的打分,更像是期末考试加模拟面试——不仅要测模型答对了多少题,还要找到它知识结构的盲区:哪些场景它处理不好?哪些边缘案例会让它翻车?竞品在同样的问题上表现如何?具体工作包括制定评测标准、准备测试数据集、跑竞品对比、收集SOP覆盖不到的边缘案例。它是AI项目的质量守门员——没有严格测评的AI应用,上线就是赌博。
外围圈:让系统跑起来
工程圈之外,还有一圈支撑性的工作。它们不直接决定项目的技术上限,但缺了哪一块都会出问题。
工具选型——向量数据库用Milvus还是Qdrant?需要快速验证想法时,Coze、Dify这类平台能帮你省去大量基础搭建工作。但要分清:用平台验证想法和用自研架构承载业务是两件事。这一层变化极快,重要的不是”选对了什么”,而是”具备快速评估和切换的能力”。
降本增效工具——知识库越来越大需要管理后台,提示词写了几十万条需要版本管理。含金量不高,但有一个关键点:权限必须管好。知识库里是业务数据,提示词里是业务逻辑,一旦泄露就是商业机密外泄。
实施与交付——如果你做的是面向企业的AI产品,还需要实施团队把产品部署到客户环境并做定制化适配。这一层极度依赖人力,坦率地说,是团队的”耗材”——但对客户而言,这往往是他们感知到的全部价值。
以及各种边角料:资料准备、数据确认、跨部门沟通……不展开了,但别小看它们。
二、工程侧:一切围绕Agent展开
如果从产品视角看AI世界,会觉得每天都在天翻地覆——今天Manus刷屏,明天Claude Code称王,后天又有个新概念炸出来。但如果切换到工程视角,会发现一件有意思的事:除了基座模型本身在变强,工程侧的技术栈其实三年来没有本质变化。
那些让人焦虑的新名词——Function Calling、MCP、Skills、RAG、herness engineer——它们本质上都是围绕同一个目标的工程优化:让Agent更可靠地完成复杂任务。
下面按时间线和逻辑链,把这些技术串一遍。你会发现,它们之间不是孤立的,而是一环扣一环的演进关系。
Agent与ReAct:起点
2022年,一篇叫《ReAct》的论文提出了一个简单但关键的框架:让大模型不再只是回答问题,而是按照”思考→行动→观察”的循环来完成任务。
打个比方,以前的大模型像一个被关在考场里的学生——你给他一个题目,他只能靠脑子里记住的知识来答。而ReAct让他可以走出考场:想一下该干什么,去干,看看结果,再想下一步该干什么。
这个框架就是Agent的起点。但早期有个大问题:模型要”调用工具”时,没有标准接口,只能靠提示词来描述工具的用法,然后让模型自己”猜”该怎么调。你能想象让一个人通过写作文来操作机器吗?不稳定是必然的。
Function Calling:给AI一双标准的手
2023年6月,OpenAI正式推出了Function Calling接口。简单说,就是给大模型提供了一套标准化的”工具说明书”,模型不再需要靠猜来调用工具,而是通过结构化的JSON格式来声明”我要调用什么函数、传什么参数”。
打个比方,以前模型调用工具像是写信——”请帮我查一下订单号为12345的物流信息”——然后祈祷对方能理解。Function Calling把这个过程变成了填表——函数名、参数名、参数值,一格一格填清楚,机器直接执行。
为了保证调用的稳定性,OpenAI还专门对模型做了大量微调训练。这个改动看起来不起眼,但它极大降低了Agent的工程复杂度,是Agent从实验室走向生产环境的关键一步。
MCP:解决N×M的集成噩梦
Function Calling解决了”一个Agent怎么稳定调用工具”的问题。但企业里不止一个Agent,也不止一套工具。假设你有10个Agent、20个数据源或工具,如果每个Agent都要为每个工具写一套适配代码,就是200个集成点。任何一个工具的API变了,一堆Agent跟着崩。
MCP(Model Context Protocol)就是为了解决这个问题而生的。它的思路很简单:在Agent和工具之间加一层标准协议,Agent不直接对接工具,而是通过MCP去发现和调用工具。工具的变更对Agent透明,Agent的变更对工具也透明。
打个比方,没有MCP的时候,每个Agent要自己记住每个餐厅的电话号码和点餐规则。有了MCP,相当于有了一个统一的外卖平台——Agent只需要跟平台说”我要点一份黄焖鸡”,平台负责对接具体的餐厅。
Skills:让复杂任务不再靠运气
Agent有了标准工具接口(Function Calling),有了统一管理协议(MCP),看起来万事俱备。但实践中很快遇到了新问题:工具一多,模型就开始乱调用。
这不难理解——你给一个人同时递过来50把不同的工具,告诉他”自己判断该用哪个”,他也会手忙脚乱。更麻烦的是,对于复杂任务,模型需要自己规划出一整套执行步骤(SOP),然后按步骤一步步调用工具。这个规划过程本身就不稳定——有时候耗费大量Token能搞定,有时候循环一百次都搞不定。
怎么办?工程上的解法有两个:
第一,渐进式加载。不是把所有工具一股脑塞给模型,而是先做意图识别,判断这次任务需要哪些工具,只加载相关的。上下文短了,调用准确率反而上去了。
第二,Skills机制。对于那些高频、复杂、容错率低的任务,不让模型现场规划SOP,而是提前把经过验证的SOP写好,存在本地。模型遇到这类任务时,直接拉取现成的SOP执行,而不是自己临时编排。
这就好比:你不会让一个新来的外科医生在手术台上现场设计手术方案。标准术式是前辈们用无数次实践验证出来的,你按着做就行。只有遇到非标情况,才需要临场判断。
所以你会发现一个规律:从ReAct到Function Calling到MCP到Skills,每一步都是工程侧的必要优化,解决的都是”让Agent更可靠”这一个问题。 技术在迭代,但底层的工程思想——标准化、解耦、渐进加载、预制件——这些东西,搞过软件工程的人会觉得似曾相识。因为它们确实不新。
RAG:给AI接上知识库
大模型有一个天生的缺陷:它的知识是训练时灌进去的,训练之后发生的事它不知道,你公司内部的数据它更不知道。让它回答专业问题,它要么编(幻觉),要么说”我不知道”。
RAG(Retrieval-Augmented Generation,检索增强生成)就是为了解决这个问题。思路很直接:在模型回答之前,先从你的知识库里检索相关内容,把检索结果塞进上下文,让模型”带着参考资料”来回答。
打个比方,大模型本来是闭卷考试,RAG把它变成了开卷考试——允许翻书,但你得把书准备好,而且书的目录索引要做对。
RAG的技术链条包含几个关键环节:
Embedding(向量化)——把文本转换成一串数字(向量),使得语义相近的内容在数学空间中距离也近。这是”语义搜索”的基础,让系统能理解”退款政策”和”怎么退钱”说的是同一件事。
向量数据库——专门用来存储和检索向量的数据库,比如Milvus、Qdrant、Pinecone。你可以把它理解为一个”语义搜索引擎”——传统搜索是关键词匹配,向量数据库是意思匹配。
数据切分与清洗——你的文档不能整篇塞给模型,需要切成合适大小的块(Chunk),并且确保每一块的内容是完整的、有意义的。这一步看起来简单,实际上是RAG项目中最耗时间、最影响效果的环节。
三、产品侧:AI正在切入每一个人的工作
工程侧讲的是”怎么造”,产品侧讲的是”造出来了什么”。下面介绍几个当前最值得关注的AI产品方向。
AI Coding:研发链路被压缩
AI Coding是把AI能力嵌入软件开发全流程的工具。代表产品包括Cursor、Claude Code、Trae、Antigravity等。它们不是简单的代码补全插件,而是能理解整个项目上下文、以对话方式完成需求理解、代码编写、测试运行、Bug调试的AI IDE。
打个比方。以前的开发工具像一个听话的打字机——程序员想好每一行代码,一个字一个字敲进去。后来的代码补全工具像一个会猜下文的输入法——打几个字,它帮忙补全后半句。而AI IDE完全不同,它更像一个初级工程师坐在旁边——告诉它”给这个页面加一个搜索功能”,它会自己去读现有代码、理解数据结构、生成完整实现、运行测试确认没有Bug。
传统的软件开发链路——拆需求、设计方案、写代码、跑测试、修Bug、部署上线——需要多人协作、周期长、沟通成本高。AI Coding的目标就是压缩这条链路。以前一个团队协作几周才能完成的项目,现在一个人加一个AI IDE,很多情况下几天就能跑通。
它的核心能力是”上下文理解”。AI IDE能读取整个项目的文件结构、代码逻辑、依赖关系,在理解全局的基础上生成代码——不是一行行补全,而是整块功能生成。更进一步,它可以直接在终端执行命令、运行测试、读文档、做架构决策——从”写代码”升级为”做工程”。
但AI Coding有一条清晰的边界:AI能高速生成代码,但它不知道该不该写这段代码。需求是否合理、架构是否可扩展、技术选型是否匹配业务场景——这些判断依然需要人来做。就像那个初级工程师,执行力很强,但不能让他自己决定”这个功能到底要不要做”。AI Coding的本质是把”执行层”自动化了,但”决策层”仍然是人的领地。
我在实践中做的第一件事,是教会团队里近20人的产研团队全面使用Trae,用Git来管理所有文件版本。这一步看起来简单,但它意味着整个团队的工作方式从”各写各的、钉钉传文件”切换到了”统一工具链、版本可追溯”。有了这个基础之后,建立了一套文档驱动开发的产研流水线:业务伙伴负责把几百字的业务需求通过AI扩写成几千字的需求报告,产品经理负责扩写成几万字的PRD,开发负责扩写成几万行的系统代码。整条链路的核心特征是:每一个环节的产物,就是下一个环节的提示词。 AI生成、AI读取,文档在不同角色之间流动,每一层都在做信息的放大和精化。
在这套流水线里,产品经理的价值不是被削弱了,而是被放大了。PRD从传统的”跨部门沟通说明书”,变成了驱动下游自动化智能体运转的核心控制指令——它是整条流水线的根节点。业务逻辑是否严密、边界条件是否覆盖、异常场景怎么处理,这些决策全部由产品经理在PRD层面定义。如果源头指令有缺陷,下游的AI会忠实地、高效地把这个缺陷放大成系统级故障。反过来说,谁能写出高质量的PRD,谁就掌控了整条自动化链路的质量上限。 在AI Coding时代,产品经理不是变得不重要了,而是成了整个产研体系中最关键的那个人。
Agent平台:低代码的AI编排
Coze、Dify、FastGPT、n8n——这些Agent平台是面向非技术人员的AI应用搭建工具。它们提供拖拽式界面,不需要写一行代码就能搭建一个AI工作流:配知识库、挂工具、编排执行逻辑,一个AI客服或AI助手就出来了。
打个比方。如果说AI工程是从零开始盖房子——打地基、砌墙、布线、装修全要自己来——那Agent平台就是精装修公寓。搬进去就能住,格局也还行,但想把承重墙打掉重新隔断,那就超出它的能力范围了。
它们解决的是一个很现实的问题:企业想用AI做应用,但大多数业务人员不会写代码。Agent平台把门槛降到了最低——产品经理用Coze做demo不用求程序员,业务团队用Dify搭内部工具不用等排期。本质上,这些平台是把前面讲过的编排层、知识库、工具调用等能力,封装成了可视化组件。通过拖拽和配置来完成原本需要写代码才能实现的工作流。Dify还支持私有化部署,满足了企业对数据安全的基本要求。
不过平台的灵活性有天花板。当业务逻辑变复杂、对稳定性要求提高、需要精细控制每一步的执行逻辑时,拖拽界面的表达能力就不够了。还是那个比方:精装修公寓适合标准化的居住需求,但如果要开一家米其林餐厅,那得从毛坯房开始、自己设计每一寸空间。Agent平台适合验证想法和处理标准场景,但不适合承载核心业务系统。
AI表格:被低估的落地利器
AI表格(多维表格)是一个容易被技术人忽视、但在企业落地中极其重要的产品形态。代表产品包括飞书多维表格、钉钉AI表格。
它解决的问题很朴素:企业中后台部门——行政、财务、HR、运营——天生亲近Excel类产品,但传统Excel有两个痛点:多人协作困难,流程自动化需要写宏或脚本。AI表格在传统表格基础上加入了多人实时协作和AI自动化能力。
打个比方。传统Excel像一张纸质的表格——写起来方便,但想多个人同时填、自动触发下一步流程,就得靠复印机和人工传递了。AI表格则像一块智能白板——所有人同时在上面写,写完之后系统自动按规则把信息分发给该看到的人。业务人员可以用自然语言配置自动化规则:比如”当某列状态变为’已审批’时,自动发送通知给相关人”——这类逻辑不需要任何技术背景就能配置。
AI表格最大的优势在于高效。业务部门有一个新想法,不需要提需求、等排期、等开发——早上在表格里配好规则,下午就能跑起来看效果。验证快、上线快、调整快。传统IT项目按月迭代,AI表格按天迭代。这种速度差意味着,业务团队可以不断试错、快速收敛,而不是把所有赌注押在一个大项目上等半年结果。
钉钉和飞书都在重押这个方向。钉钉产品发布会上,上午三个典型案例——直播电商、工业制造、全球化——全部是AI表格的场景。从行业趋势看,AI表格正在成为企业用AI降低业务理解成本和流程梳理成本的核心工具。很多技术团队还在纠结”用什么Agent框架”的时候,业务部门已经用AI表格把日常工作流自动化了。
它的边界也很清楚:擅长处理结构化、流程化的场景——数据录入、报表汇总、信息分发、审批提醒——但不适合高度非结构化的深度分析任务。它是AI在企业落地的最务实起点,但不是终点。
数字员工:SOP的终极形态
2026年初,以OpenClaw为代表的”数字员工”概念火了一把。它的本质是前面讲过的Skills机制的产品化——企业把SOP和业务流程整理出来,灌进AI系统,AI按照SOP自动执行任务:收邮件、排日程、填表单、跑审批、做客服。
打个比方。数字员工就像一个只会照着手册做事的实习生。手册写得好,它执行得比人还准、还快、不休息、不出错。手册写得烂,它就会严格地、高效地、一丝不苟地做错事。
技术上,这些事两年前也能做到。它的核心机制是Skills——预制好的标准化工作流,模型遇到匹配的任务时直接拉取执行,结合Function Calling和MCP实现工具调用与系统对接。Agent框架、工具调用接口、协议规范,该有的工程能力早就有了。
那为什么2026年才火?因为OpenClaw做对了一件事:把这套能力包装成了企业能直接使用的产品形态。 它没有发明新技术,但它让老板们第一次亲眼看到”AI真的能像员工一样干活”。于是组织认知发生了变化——老板们开始让员工整理SOP和Workflow,大量流程化、重复性的岗位开始被逐步替代。
这不是理论推演。我们公司原本有三十多人的客服团队,在我打造出AI客服平台后,因为客服SOP整理得足够完善、知识库覆盖了绝大多数常见场景,团队直接缩减到了11人。减掉的不是”能力差”的人,而是”工作内容可以被SOP覆盖”的人。留下来的,是那些能处理复杂客诉、做情感安抚、做跨部门协调的——恰好是SOP覆盖不了的部分。
数字员工的边界也很清晰:它只能处理可以被SOP化的任务。需要情感判断、创造性决策、跨域知识整合的工作,目前无能为力。而且**SOP本身的质量决定了数字员工的上限**。
四、终章:数据工程
前面讲了模型、讲了工程技术、讲了产品形态。但如果只能记住一件事,那就是这一章的内容:**所有应用层的AI项目,瓶颈最终都会落在数据工程上。** 搞不定数据工程,就不可能做出好的AI应用。
这不是夸张。回顾前面讲过的每一层:RAG的效果取决于知识库的数据质量,提示词工程的核心是把业务SOP结构化为数据,模型调优依赖高质量的训练数据集,数字员工的上限是SOP的完整度——**归根结底,都是数据问题。**
那数据工程到底在做什么?
打个比方。如果说模型是一个聪明的大脑,那数据工程就是这个大脑的教育系统——决定它能学到什么知识、知识的组织方式是否合理、遇到没学过的东西时能不能自我进化。教育系统的好坏,决定了大脑最终能做到什么程度。
可观测性:先看见问题,才能解决问题
AI系统上线之后,第一个挑战不是”它答错了”,而是”不知道它为什么答错了”。一个AI客服给出了一个离谱的回答,原因可能是:知识库里缺少相关内容?检索到了错误的文档?模型理解出了偏差?提示词的指令有歧义?
如果没有一套可观测性体系,每次出问题就只能靠猜。可观测性做的就是这件事:记录AI系统每一步的输入、输出、中间过程和决策依据,让问题可追溯、可定位、可修复。
这要求背后有一套严谨的数据结构来承载——日志怎么存、指标怎么算、异常怎么报警、可视化怎么呈现。这些设计,靠的就是最传统的数据建模和信息架构能力。
知识组织:不是”有数据”就行
很多团队以为,把公司的文档、手册、FAQ全部灌进知识库就算完事了。结果发现效果很差——模型要么检索不到相关内容,要么检索到一堆冗余信息,最后给出一个似是而非的回答。
问题出在哪?出在数据的组织方式。同一个业务问题,可能散落在三份不同的文档里,每份文档的表述方式不同、详略程度不同、甚至结论互相矛盾。把它们原封不动灌进去,模型面对的就是一个混乱的知识图谱。
知识组织做的就是这件事:在数据进入系统之前,先把它理清楚。 哪些是核心知识、哪些是辅助说明、哪些已经过时需要淘汰、不同文档之间的关系是什么——这些工作,本质上就是信息架构。
打个比方。知识库不是一个储物间——把东西往里扔就行。它更像一个图书馆——每本书要分类、编目、上架,读者才能按目录找到想要的内容。把一个储物间改造成图书馆,需要的不是搬运工,而是图书馆学。1990年代的学问,在这里派上了用场。
数据飞轮:让系统越用越聪明
AI系统上线之后,最理想的状态不是”一直保持当前水平”,而是”越用越好”。这就需要一套数据飞轮机制——用户的每一次使用、每一次反馈、每一次纠错,都应该被系统捕捉、分析,然后反哺到知识库和模型调优中去。
举个例子。AI客服今天答不上来一个关于退款时限的问题,系统把这个”漏洞”记录下来,运营人员把正确答案补进知识库。下次再遇到同样的问题,AI就能准确回答了。这个过程如果靠人工一条条处理,效率极低。数据飞轮的目标是尽可能自动化这个循环——发现知识缺口→标记→补充→验证→上线。
这套机制听起来简单,实际做起来极其复杂。需要设计数据采集的管道、定义什么样的信号算”知识缺口”、建立自动化的知识更新流程、同时确保新加入的知识不会跟已有知识冲突。这背后,又是系统论和控制论的思想在发挥作用。
最难的不是技术,是协作
数据工程还有一个容易被忽视的维度:数据的来源往往不在技术团队手里。
一个AI医疗问答系统,核心知识来自医生。一个AI法律顾问,核心知识来自律师。一个物业管理AI,核心知识来自一线运维人员。这些专业人员有极深的行业Know-How,但他们的知识往往以”经验”的形式存在大脑里,从未被结构化地记录过。
让医生、律师、物业经理把自己的经验整理成结构化的数据,这件事的难度远超想象。他们不是互联网人,不熟悉文档协作工具,也没有”把隐性知识显性化”的习惯。组织他们去做这件事,需要的不是技术能力,而是项目管理和沟通能力。
更麻烦的是,数据工程是一个漫长的过程。知识库不是一次性建好的,而是要持续迭代——每次业务变化、政策更新、流程调整,都需要同步更新。这个周期会拉得很长,系统的表现也会时好时差。这很消耗团队的耐心和士气。
回到原点
写到这里,这篇文章想说的事情其实已经很清楚了。
模型会越来越强,工程技术在迭代但本质没变,产品形态在爆发但底层逻辑是确定的。而真正决定一个AI项目成败的,是数据工程——它是最脏最累的活,也是壁垒最深的护城河。
而数据工程的每一个环节——可观测性、知识组织、数据飞轮、跨部门协作——依赖的都不是什么新技术,而是那些存在了几十年的老学问:数据建模、信息架构、系统论、控制论、项目管理。
工具会换,平台会倒,但这些思维结构,十年后还是最硬的底牌。
未来:选择哪条赛道?
这篇文章从焦虑写起。写到最后,焦虑其实已经消解了——当看清了什么在变、什么不变、什么真正值钱之后,焦虑就没有立足点了。 剩下的问题只有一个:把这些能力押在哪条赛道上?
不是所有行业都适合AI。判断标准很简单:知识密度高、决策链条长、数据沉淀深、容错要求严。 满足这些条件的行业,AI+数据工程能产生的复利效应最大——因为每一次知识的积累、每一次SOP的优化、每一次数据飞轮的转动,都在提高系统的准确率和可靠性,而且这种提高是可以叠加的。
回头看,互联网和物管行业给了我完整的工程训练——从产品设计到系统架构到数据治理到团队管理。但如果论”AI+行业”的长期价值,有一个领域的天花板远高于其他所有行业:医疗。
医疗行业几乎完美命中了上面的每一条标准。医学知识的密度和复杂度远超绝大多数行业,诊断决策链条长且高度依赖经验,临床数据的沉淀量巨大但结构化程度极低,而且容错要求是所有行业中最严格的——毕竟错误的代价可能是一条生命。
这意味着:谁能在医疗领域做好数据工程——把医生脑子里的经验结构化、把临床路径SOP化、把知识库建得准且全——谁就拿到了一张最长期的船票。 这不是一个几个月就能看到回报的赛道,但它是一个做得越久、壁垒越深、价值越大的赛道。
这也是我接下来想选的方向。带着这些年在工程、数据和AI上积累的能力,进入一个真正值得长期投入的行业。
夜雨聆风