如果这篇对你有用,右上角点「设为星标」。下次我发新文章,你不会在信息流里错过。
我们在用AI在执行任务的时候,并不是越聪明的LLM就能更好的完成任务
我开始给自己设计Agent。就发现一个问题,当我们让agent执行任务时,有些活要判断,有些活要校验,有些活就是纯执行。不同难度的任务并不是一个agent就可以更好的做完的,
我把它们拆成了三个 Agent:一个当大脑,只管方向和终审。一个当身体,管校验和协调。一个当手,管抓数据和标准化执行。
三个 Agent 跑不同的模型。大脑最近用 Claude,身体用 DeepSeek V4,手用 GLM Flash。后来我发现一个有意思的事:一段时间后,它们的"性格"不一样了。大脑学会了我改文章时先问"你这个观点的前提对吗"。手学会了数据抓不下来先自己重试两次,第三次再叫我。身体的 memory 里全是校验模板,看到格式错误直接标红。
它们变成了三个不同的同事。
这事让我想明白一个问题。所有人都在说"给员工配个 AI 助手",但没人认真想过——你给的是一个"通用的 ChatGPT"还是"一个按照他的工作设计的 Agent 集群"?这是两件完全不同的事。
然后我开始把这个思考带到企业客户那里。
企业AI转型的两种搞法
目前企业在试的 AI 转型,基本是两种路径。
第一种:单点突破。找到公司最痛的一个业务环节——比如标书撰写、客服第一轮响应、合同初筛——然后上一个 Agent 替代这个环节。这条路走得通。见效快,三个月能看到数字。
第二种:组织转型。把整个组织的协作方式重新设计过——每个人有自己的 Agent 集群,Agent 和 Agent 之间有流转协议,公司的 know-how 被系统性地从人身上提取出来封装成可调用的能力包。
第一条路很多企业做完后,发现Agent无法管理,为了会有越来越多的Agent,之间怎么协同怎么管理,其实又回到第二个问题中。
第二种路径才是真正难的事。它的核心问题根本不是技术。
是组织架构。
我把这套东西从个人实践做成了可交付的系统——一个帮企业管住四层架构的平台、一套可配置的头身手 Agent 模板、一个陪跑企业走完第一个黑盒实验的咨询服务。下面我把它完整拆开。
《孙子兵法》里有一句:"凡治众如治寡,分数是也。"管理千军万马和管理十几个人,用的是同一套逻辑——组织编制。翻译成今天的话:你把组织结构设计对了,规模不是问题。
你去看企业真正关心的问题,翻来覆去就五个:
第一,哪些工作该交给 AI,哪些必须留给人?没人说得清楚。结果要么让 AI 做了不该它做的判断(然后人背锅),要么让人继续做机器该做的事(然后问"这 AI 到底省了什么")。
第二,给了 AI 之后,质量谁来兜底?一个 Agent 的判断交给另一个 Agent 校验,中间的格式是什么、出错了谁负责、什么时候必须等人拍板——这些规则不设好,500 个 Agent 就是 500 个互不知情的陀螺。
第三,成本和安全怎么管?CFO 只关心一件事:Token 花了多少钱、花在哪了。IT 只关心一件事:谁能看到什么数据。这两件事没有答案,AI 预算明天就被一刀砍掉。
第四,人的经验怎么留下来?一个干了十五年的工程师走了,他脑子里的判断方法也走了。以前你说"这东西写不下来",现在 AI 能提炼了。前提是你有一套系统让人愿意被提炼。
第五,每个人具体怎么用?你总不能给全公司一人一个 ChatGPT 然后说"自己琢磨"。每个人需要的是一个按照他工作设计的 Agent 集群——有人帮他判断,有人帮他校验,有人帮他执行。
下面一层一层拆开回答。
真正的难题:四层组织架构

L4 认知层:把工作拆了
第一个问题——哪些工作该交给 AI,哪些留给人。
大多数人回答不了。因为他们从来没把自己的工作拆成"判断型""校验型""执行型"这三类。
判断型的工作——这个客户应该用什么策略谈、明年产品线要不要砍一半——留给人做,或者交给最强模型的 Agent 辅助。执行型的工作——每天从 CRM 里拉数据做报表、把销售发的微信记录整理成客户档案——直接交给 Agent。校验型的工作卡在中间——合同条款有没有漏洞、这个数据跟上次报表对得上吗——也交给 Agent,但用的模型比手强一点、比大脑弱一点。
不拆工作,你永远不知道 AI 该放在哪里。要么让 AI 做了不该它做的判断(然后人背锅),要么让人继续做机器该做的事(然后问"这 AI 到底省了什么")。
L3 协作层:Agent 之间怎么交接
第二个问题——Agent 之间的质量谁来兜底。答案是一套流转协议。
一个人的 [大脑] Agent 产出了一个判断,丢给另一个人的 [身体] Agent 做校验,中间的格式是什么?携带多少上下文?什么情况下 Agent 可以自己做主,什么情况必须等人确认?
这些问题不回答,AI 就只能是每个人的独立玩具,永远变不成组织的协作系统。
我在自己的三个 Agent 之间设了一套协议——task_board(谁在干什么)、handoff_log(交接时留下什么信息)、workflow_patterns(什么任务走什么流程)。每个流转节点标注了一个 Oversight 级别:HIGH 必须人确认,MID 关键节点确认,LOW 自动流转。
这套协议比 Agent 本身重要。Agent 会换、模型会升级,但流转规则是你的组织神经系统。没有它,500 个 Agent 就是 500 个在各自工位上自转的陀螺,永远不会一起做事。
Karpathy 在今年红杉 AI 峰会上讲了同一个意思。他的话更直接——"你现在是在编程一个组织。源代码就是构成它的提示、技能、工具和流程的集合。"一个组织的运作方式,可以被抽象成一个文件——定义角色、定义流转规则、定义什么情况下自动执行什么情况下必须等人确认。
说实话,这件事我自己踩过坑。最早我的三个 Agent 之间没有协议,大脑想叫手去抓数据,只能靠我手动转发——我是它们的信息素。跑了一个月才意识到,我不是在指挥一个团队,我是在当一台人肉路由器。
L2 平台层:能管住的自由
第三个问题——成本怎么控、安全怎么管。CFO 和 IT 最焦虑的两个字,一个叫"钱",一个叫"合规"。
每个人有一个独立的 Agent 实例——每人一个独立容器,有自己的记忆、自己的 Skill 配置、自己的使用历史。三个月后,张工的 Agent 和王工的 Agent 能力不同,因为它们各自积累了不同的上下文。不再是全公司共用一个 ChatGPT Team 账号。
但 IT 部得能管住:谁能用什么模型?(L1 一线员工、L2 部门经理、L3 高管、L4 管理员——四级权限。)每个人一个月花多少 Token?(L1 200K、L2 500K、L3 2M、L4 20M。)知识库里的国标文件谁有权限检索?(按 L1-L4 硬过滤。)所有操作能不能追溯?(全链路审计日志。)
自由和治理必须同时成立。只给自由不给治理 = 预算黑洞。只给治理不给自由 = 没人用的装饰品。
所以这一层需要一个平台——每人独立实例、四级权限、虚拟 Key 预算、全链路审计。你打开仪表盘,每个部门花了多少 Token、走的哪个模型、占比对不对,实时可见。
L1 知识层:把人身上的 know-how 扒下来
第四个问题——人的经验怎么留下来。最难的,也是最值钱的。
一个在钢铁行业做了十五年的工艺工程师,脑子里有一个"判断某批钢水该不该回炉"的方法。这个方法从来没有被写下来过。他走了,方法就走了。
企业 AI 转型最深的变革就是这件事——把组织的 know-how 从人身上提取出来,封装成 Agent 能调用的 Skill。然后让这些 Skill 可以被跨部门调用、被版本管理、被审批后上线。
传统企业里的 SOP、操作手册、培训文档——全是写给"人读"的。AI 原生企业里的知识资产,是写给"Agent 调"的。Karpathy 在红杉 AI 峰会上说过一个话,很难听但很准:"我最烦的一件事——为什么人们还在告诉我应该做什么?告诉我应该 copy-paste 给我的 Agent 的那段文本是什么。"这就是 L1 要做的事。文档的第一读者不再是新员工,是新员工的 Agent。
这件事的阻力不在技术,在人。"我凭什么把我十五年的经验写成一个谁都能用的 Skill?"这个问题不回答,知识层永远是空的。
说实话,我自己做咨询这几年,见过太多"这个人走了,能力就没了"的案例。想留,但留不住——缺的是一个系统性的方法,把隐性的判断经验变成显性的可调用能力。AI 给了一个契机:以前你会说"这东西写不下来",现在 Agent 能观察你怎么做事、然后帮你把模式提炼出来。前提是你得愿意被观察。
每个人怎么跟 AI 协作:大脑、身体、手
第五个问题——每个人具体怎么用。四层是组织的骨架,这一层是肌肉。
回到我最开始搭的那三个 Agent。把它们的结构拆开来看,就是每个人需要的 AI 协作方式。
三个同事,不是三个模型

给员工配 AI,最常见的做法是发一个 ChatGPT——一个模型干所有活。问题在哪?
今天的 AI Agent 有一个天然特征。Karpathy 给它取了一个精准的名字——spiky entities:参差不齐的实体。它们在一个方向上极其强大,在另一个方向上又出乎意料地脆弱;它们有一点随机、有一点不稳定、但你很难否认它们的强大。用一个模型干所有活,等于让同一个 spiky entity 同时处理判断、校验、执行——它会在某些环节极其出色,在另一些环节莫名其妙地出错,而你不知道为什么。
所以正确的做法,是把不同能力的 Agent 编排在一起,让每个只做它最擅长的事。
我搭的三个 Agent,核心设计在于三套能力边界完全不同的配置——模型不同只是结果。
大脑 Agent。只能调用判断型工具——delegation(委托子Agent)、clarify(追问澄清)、memory(记忆检索)。给它配的是最贵的模型(Claude),因为它干的是最值钱的活——什么时候该改方向、这个判断的前提对不对。你不能让它去抓网页。抓网页是浪费大脑。
身体 Agent。卡在中间,工具集是 search、web_extract、read_file。干的是校验——这个数据跟上次报表对得上吗?这份合同有没有逻辑漏洞?配中等模型(DeepSeek V4),够用不贵。不做原创判断,只出校验报告。
手 Agent。只管执行——terminal、web_scraper、batch_process。没有任何判断类工具,也不让它碰记忆系统。配最便宜的模型(GLM Flash),因为干的是体力活。下发了任务就自动跑,遇到错误先自己重试两次,第三次再叫人。
三个 Agent,三个独立的记忆空间。大脑的记忆里存的是"上次这个客户的战略方向判断";身体的记忆里全是校验模板;手的记忆里是"这个数据源 API 超时的概率 30%,下次先备好缓存"。三个月后,它们是三个性格、能力、记忆完全不同的同事。跟模型名字已经没有关系了。
岗位不同,三层的配比完全不同。知识工作者可能是 15/30/55,车间主任可能是 5/15/80。配比不是关键,把工作按认知分类的思维才是。
这套架构的经济账
这是 CFO 会主动推的东西。
拿一个 500 人的企业算。假设每人每天平均消耗 15,000 Token:
全用一个模型——DeepSeek V4,月均 2.7 万。但关键判断型任务用的不是最强模型,质量有天花板。全用 Claude Opus,月均 13.5 万,贵到 CFO 不批预算。
三层分流之后:大脑 15% 的 Token 走 Claude(最贵,但只用 15%),身体 30% 走 DeepSeek V4(中价,用 30%),手 55% 走 GLM Flash(极便宜,用一半以上)。月均 4 万。比全用 Claude 省了 70%。
| 三层分流 | 15% 最强 + 30% 中 + 55% 轻 | ~4 万 |
钱省了,关键判断用的还是最强模型。而且这套分流比例不是写死的——仪表盘上实时看到每个模型的 Token 消耗分布,如果大脑占比过高说明 Skill 沉淀不够、或者员工把简单问题丢给了最贵的模型。可以调。越跑越省。
换个说法:你花不到全用大模型三分之一的钱,让最关键的那部分判断,用的就是最好的模型。这笔账,你的 CFO 会比你先算明白。
经济性不是这套架构的副产品,是它的核心设计目标。
怎么开始:组织黑盒-10 个人,2 个月
我知道你在想什么。"这四层架构 + 三层 Agent + 协议 + 审批流——这是要搞一个两年的大项目。"
想多了。
10 个人。2 个月。一个正在跑业务的真实团队。
为什么是黑盒实验
企业 AI 转型有一个死结:你没法靠 PPT 说服全公司改变工作方式。人只相信自己看到的东西。
所以你需要一个"最小可复制单元"——一个小团队,在受控的边界内把两层都跑通,然后拿着真实数字去推广。这个数字不仅是你用了多少 Token,更是"黑盒团队 vs 常规团队,同一个任务谁更快、谁更准、谁花得更少"。
这才是 AI 转型最缺的东西:一个可量化、可对比、可展示的成果。没有这个东西,AI 永远是 CIO 的年度汇报素材,不是业务部门的日常生产工具。
怎么做
选一个 6-10 人的真实业务团队。不是"AI 兴趣小组",是正在跑业务的团队。里面最好有一个让 CEO 都觉得难搞的部门负责人——如果他跑通了,推广时没人能说"你那套在我的部门用不了"。
给每人部署三个 Agent(大脑/身体/手)。设定基础流转协议。上第一批通用 Skill。然后让他们正常跑业务,唯一的要求是"能用 Agent 的地方优先用 Agent"。
每周五下午一小时复盘。就看三个问题:什么任务 Agent 做得好?什么交接卡住了?该有的 Skill 还没有?
两个月后,你会得到四样东西:一套被验证过的工作拆解模板、一套 Agent 间流转协议、一套平台配置(权限+预算+模型路由)、10-20 个经过实战验证的 Skill。
这四样东西就是"种子"。复制到下一个部门,再复制到下下个部门。
这套系统能给你看什么
两个月结束,你站在 CEO 面前,打开仪表盘,给他看三组数字:
第一组:效率对比。黑盒团队在 AI 覆盖的任务上,人均产出是常规团队的多少倍?标书初稿从 3 天变成了几小时?合同初审从人工逐条变成了 Agent 预标红 + 人只审标红项?
第二组:成本结构。三层分流的 Token 消耗分布——大脑/身体/手各占多少?花了多少钱?省了多少钱?如果当初全用大模型是多少钱?
第三组:知识资产。两个月里从团队身上提取了多少个 Skill?哪些 Skill 已经被其他部门调用了?哪些知识库文档从"在某个人的电脑里"变成了"全员可检索"?
三组数字,分别回答 CEO、CFO 和业务负责人的问题。
它跟试点的"效果报告"有一个本质区别。试点结束的标志,是一份 PPT 汇报。黑盒结束的标志,是第二个部门已经报名,第三组数字已经摆在 CEO 面前。
别把它叫"试点"。试点的潜台词是"试试看,不行就算了"。黑盒实验的潜台词不一样——"在这个可控边界内,把两层都跑通,然后拿着真实数字推广"。前者只交报告,后者交复制能力。
推广的时候,让第二个部门自愿报名,别用集团发文。发文激活的是抵抗——"上面又搞新花样了"。自愿激活的是竞争——"他们部门用了那个之后产出翻了三倍,我们也报一个。"
这套东西从平台部署到头身手配置到第一个黑盒实验的陪跑,我们已经有完整的交付能力。你拿到的是一个已经在别处跑通过的系统、一套被验证过的协议模板、一群知道坑在哪的人——帮你走完第一个两个月。
10 个人。2 个月。一个正在跑业务的真实团队。
具体做什么
写到这儿,你应该已经理解了这套框架。但你可能还在想一个问题:"具体应该怎么展开?"
三件事。
第一,一个平台。搭建一个企业级 AI Agent 管理后台。你 IT 部的人打开它,能看到全公司每一个员工的 Agent 实例、每一个部门的 Token 消耗、每一种模型的调用占比。能管权限——L1 到 L4 四级,谁看什么数据、谁调什么模型,硬隔离。能管预算——每人每月 Token 硬上限,快到上限自动降级到便宜模型。能管合规——所有操作全链路审计。能管技能——公司内部谁提交了什么 Skill、谁在用、谁审批,全部可追溯。
这个平台不是给一个人用的。是给 IT 部、财务部、合规部、业务部——四个角色在一个系统上各取所需。
第二,每个员工的头身手 Agent 集群。不是发一个 ChatGPT 账号。是给每个人部署三个 Agent 实例——大脑走 Claude 做判断、身体走 DeepSeek V4 做校验、手走 GLM Flash 做执行。三个 Agent 共享一个平台但记忆隔离、工具隔离、行为逻辑不同。三个月后,张工的 Agent 和王工的 Agent 是两套完全不同的配置——因为它们的记忆、Skill、使用模式是从各自的工作流里长出来的。
第三,一个黑盒实验的陪跑服务。前两条是产品,这一条是服务。你选定一个 6-10 人的团队,把平台和 Agent 部署进去后,然后陪跑两个月,直接交付结果。复盘清晰可见:什么跑通了、什么卡住了、下一步该加什么 Skill。两个月结束,你手上有一个已经在真实业务里验证过的模板——不是咨询报告,是可以复制到下一个部门的操作系统。
三件事加在一起,帮企业迈出 AI 转型第一步。你买不到一个"AI 转型产品"——市面上没有这种东西。但你可以拿到一个已经在别处跑通的系统,直接部署进你的组织,让别人踩过的坑你不用再踩一遍。
从管控到蜂巢:AI 原生组织的形态

前面讲的所有东西——四层架构、头身手、黑盒实验——都是为了回答"企业怎么落地 AI 转型"。但还有一个更大的问题,藏在这一切的背后:转型完成之后,你的企业长什么样?
答案不是"每个员工都会用 AI"。那是手段。终点在别处。
终点是,每个员工都是一个独立运作的 OPC——Operating Center。他不再只是组织机器上的一个齿轮,不再只是"上司分配任务、我执行、上司检查"。他有自己的大脑 Agent 做判断、自己的身体 Agent 做校验、自己的手 Agent 做执行。他是自带 AI 集群的最小作战单元。
这不是比喻。当你给一个人配上大脑/身体/手三层 Agent,他的产出边界不再是"一个人能干多少活",而是"一个 OPC 能覆盖多少业务流"。以前一个标书撰写需要三个人——一个查资料、一个写初稿、一个审格式。现在一个 OPC 就干了,三个 Agent 各管一段,人坐在中间做判断。
当每个员工都是 OPC,组织的形态就变了。
传统的企业组织是树状的。指令从根部往叶子传导,信息从叶子往根部汇总。每一层管理者是这个传导系统的中继节点。树状结构的问题在于——信息每经过一个节点,就有损耗。节点越多,组织越慢。
AI 原生组织是蜂巢状的。
蜂巢没有一个"中央大脑"指挥每只蜜蜂去哪采蜜。每只蜜蜂是自驱动的,它们通过信息素交换方向,蜂群作为一个整体做出比任何单只蜜蜂都聪明的决策。放到企业里——
每个 OPC 是自驱动的。L4 认知层给了他判断"什么活该干"的框架。L3 协作层的流转协议是信息素——你的产出自动流向需要它的人,不需要经过"经理审批→转发→抄送"的树干路径。L2 平台层保证安全边界和预算边界不被打破,但不干预内容。L1 知识层是蜂群的集体记忆——一个人的经验变成所有人的能力,不需要"师傅带徒弟"的一对一传承。
蜂群的生命力在于:拿走一只蜜蜂,蜂巢照样运转。树状组织的脆弱在于:砍掉一个中层节点,整条业务线瘫痪。
这才是 AI 转型真正的终点。组织从树变成了蜂巢。AI 只是这个变化的催化剂。
Karpathy 描绘过同一个未来。他说:"最终,人和组织都有 Agent Representation——我让我的 Agent 去和你的 Agent 谈我们会议的细节。"这不是科幻。当你的三层 Agent 跑通、四层架构就位之后,会议室里坐着的不再是五个人,是五个人加十五个 Agent。人在做判断,Agent 在交换数据和校验对方的逻辑。
过去十年,企业花了太多时间讨论"扁平化"。蜂巢不是扁平化。扁平化还是树——只是少了几层。蜂巢是另一种物种。
我见过一种说法——"AI 转型是马拉松,不是短跑"。
错了。
AI 转型是"你什么时候开始跑"的问题。因为已经在跑的人,每多跑一步,就在积累一层你追不回来的东西——真实跑出来的数字、磨合了六个月的 Agent、踩过的坑和改过的协议。这些东西靠时间堆出来的,读两篇文章追不回来。
10 个人,2 个月。
这个决定跟预算无关,跟技术选型无关。它首先是一个判断:你的组织,准备好被重新设计了吗?
如果你读到这里觉得"这确实是我们需要的,但内部推不动"——这是最常见的情况。一个外部团队带着已经在别处跑通过的系统,效果和内部从零搭完全不同。欢迎与我联系,我们团队深入企业,陪伴转型落地

关于引梦马我们在做一件事:帮 B 端企业找到真正能用的 AI 解决方案,帮垂类 AI 产品找到真正愿意付费的市场。每月一次线下活动,在上海,聊真实的 AI 落地,不聊概念。
Jax Wu | 引梦马 CEO · 全国最大咨询 AI 转型社群创始人 · 区块链底层应用架构师 · AI 探索者 · 企业 AI 转型赋能者
夜雨聆风