AI软件工程范式革命的思考
导语这篇文章想讨论一件事:软件工程过去五十年其实没真正”工程化”过。它一直停留在手工艺阶段,被各种方法论包装成工程,但骨子里还是靠人脑堆。这一点直到大模型出现才开始有可能改变。 我会沿着这条思路往下推:先回看其他工程门类是怎么”工程化”成功的,再看软件这条路为什么走不通;然后讨论大模型把哪一块缺口补上了,又带来了什么新的麻烦;接着是当下业界普遍在走的弯路,以及我认为正确的路径长什么样;最后落到落地路线、组织形态,以及这件事真正最难的那道坎在哪里。 整篇文章是一次完整推演,不是工具评测,不是预测,更像是把很多年里零散的想法串成一条逻辑线。
一、为什么说软件工程是过去五十年最不彻底的工程
1.1 经典工程的胜利路径,其实是同一条
机械、化工、电力、自动化、通讯,这些工程门类长得天差地别,但翻它们的工程史会发现一个共同点:它们都靠”消耗能源把人脑参与的低阶认知回路固化成物理装置”成功的。
蒸汽机的离心调速器、化工厂的恒温器和压力调节器、电网的调度装置、流水线上的 PLC——本质上都是同一件事:让原本要靠人盯着、调整、判断的事情,由一台烧煤或者通电的设备自己完成。人从主回路里被剥离出来,退到设计、维护、维修这些位置。
这就是控制论最早的工程实现路径。它的核心结果不是”省了几个工人”,而是不确定性被大规模消除——同样的输入、同样的能源,输出是稳定可预期的。
|
工程门类 |
把哪种”低阶智能”固化成了能源装置 |
人退到哪里 |
|---|---|---|
|
蒸汽机 |
离心调速器(机械负反馈) |
设计与维护 |
|
化工 |
恒温器、压力调节器 |
工艺设计 |
|
电力 |
电网调度系统 |
调度仲裁 |
|
自动化 |
PLC、流水线控制器 |
产线规划 |
经典工程的”成功”,秘密不在某项技术,而在这套”能源换低阶智能”的范式本身。
1.2 软件工程恰好卡在这条路走不通的地方
把这套范式套到软件上就会发现卡壳了。软件开发要做的事情是抽象、分解、推理、创造——这些都是高阶认知,没法像调速器那样固化成一个物理回路。代码是用人的思维一行一行编出来的,编译器只是忠实地翻译,从不”理解”需求。
所以软件工程一直没法做到”投入能源,另一头流出可工作的软件”这件事。它必须靠大量高密度的人力。而人脑这个认知主体有几个绕不过去的毛病:会误解、会遗漏、不一致。需求从用户口里说出来,传到产品经理,再传到开发,每一道都失真;状态空间稍微复杂一点,单个人的注意力就盖不全;同样一件事,张三和李四的处理方式可能完全不同。
软件危机的本质就是这件事——不是哪个技术不行,而是这个工程门类的认知主体始终是人脑,而人脑在这套生产关系里没法被替换。
1.3 历代方法论其实都在做同一件事:管理人,而不是替代人
把过去五十年的软件工程方法论摊开看,结构化编程、面向对象、敏捷、Scrum、DevOps——它们解决的是同一个问题,而且解决方式是同一种:优化堆人力的方式,但没改变”必须靠人力堆”这个事实。
敏捷拥抱变化,DevOps 缩短反馈环,Scrum 把大目标切成小迭代,本质都是承认”人是不可替代的不确定性来源”,然后想办法让这种不确定性更可管理。
这就是为什么我会说软件工程是过去五十年里最不彻底的工程——所有兄弟门类都完成了”能源替代低阶智能”这个动作,唯独软件没有。它在工程的形而上学层面是个残缺品。
1.4 但过去五十年并不是白费的
说这话有个必须澄清的地方:“软件工程是失败的”不等于”过去五十年的所有努力都白搭了”。
恰恰相反,这五十年沉淀下来一整套东西——编译器、类型系统、单元测试、CI/CD、灰度发布、契约编程、形式化方法、静态分析、覆盖率、监控、链路追踪。这套东西虽然没让软件工程”工程化”成功,但它们留下了一个非常关键的资产:一整套自动化验证基础设施。
这件事到了第六章会再出现,因为它正好是新范式的地基。某种意义上,过去五十年的”失败”是给下一个时代准备弹药——只是当时谁也不知道。
二、大模型补上了那个缺口,但带来了新麻烦
2.1 大模型这件事的工程史定位
大语言模型不是 AGI,但它做到了一件经典工程从来没做到的事:输入电力(最终是算力),输出能理解需求、生成代码、做逻辑推理的高阶认知产物。
把这件事放到工程史的坐标里看就很清楚了:
经典工程:能源→低阶智能(机械调节、自动控制)大模型:能源→高阶智能(理解、推理、生成、决策)
工程史上第一次有了”认知引擎”这种东西。我说”引擎”不是修辞——它和蒸汽机的工程史地位是平行的。蒸汽机让”做功”这件事第一次能源化,大模型让”认知”这件事第一次能源化。
如果上面的判断成立,那软件工程”真正降临”的时刻不是 SCRUM 流行的时候,不是 DevOps 普及的时候,也不是云原生铺开的时候——是大模型让”能源换高阶智能”成为可能的时候。在此之前所有的”软件工程”,严格说都是软件作坊的优化版。
2.2 但这只是入场券,不是终局
大模型本身带着一堆高阶的不确定性。幻觉——输出看着合理,悄悄就错了;漂移——同样的输入,今天和明天给出不一样的结果;不可解释——你没法看进它的决策过程。
这意味着大模型并没有消除不确定性,只是把”人的不确定性”换成了”模型的不确定性”。如果只看到 AI 用能源产出认知能力,却不管控这一层新的不确定性来源,软件工程的下一个时代就会从”人的危机”直接转成”模型危机”。
所以光有认知引擎不够。真正需要的是一整套新的工程原则——人的责任不再是亲手消除每个微小的偏差,而是设计一个能自我纠偏的系统,并处理系统自己纠不回来的剩余偏差。
这件事在控制论里有个对应概念。冯·福斯特在 1970 年代提出过二阶控制论,简单说一阶控制论是”观察并控制被控对象”,二阶控制论是”观察并控制’观察并控制’这件事本身”。投到 AI 软件工程上:
经典软件工程:人在写代码AI软件工程:人在设计"AI 写代码的系统"
这是身份的转变,不只是工具的转变。如果未来真有一本叫”AI 软件工程”的教科书,第一章应该写的就是这件事——它本质上是二阶控制论第一次大规模在认知工程领域工业化。
三、人在自动化时代不会消失,只会换地方
3.1 一个反直觉但反复被验证的现象
工程史上有个现象,我每次想起来都觉得意味深长:自动化越彻底,工业相关人口反而越多。
|
时代 |
主导工程范式 |
直接生产工人 |
工业相关人口(含设计/研发/运维/调优) |
|---|---|---|---|
|
1850 年代蒸汽机普及 |
机械化 |
占比约 30% |
制造业整体爆炸式增长 |
|
1950 年代流水线加 PLC |
自动化 |
持续下降 |
工程师、设计师、工艺员暴增 |
|
2000 年代工业机器人 |
数字化 |
进一步减少 |
自动化工程师、产线运维成新岗位 |
|
现在 |
智能化 |
仍在减少 |
仍在增加 |
一百五十年了,”自动化吃掉一类岗位、又冒出更多新岗位”这件事从来没失效过。
3.2 为什么会这样
经济学课本会告诉你这是”需求扩张”。但更深的解释,我觉得是这个:每一次系统能力扩张,都会暴露出新的边界,而边界就是新的”偏差地带”,需要新一波人去守在那里。
第一波工程化把肌肉劳动固化进系统,人退到机械边界监督位;第二波把低阶决策固化进系统,人退到控制边界监督位;现在第三波把高阶认知固化进系统,人会退到认知边界监督位。
每一次”退守”都不是失业,而是迁移。因为边界本身在扩大,所以需要守的人反而更多了。
3.3 人的统一职能其实只有一个:偏差拉回
把这条铁律抽象出来,会得到一个我觉得相当稳定的结论:在所有工程门类里,人类的统一职能是处理系统暂时还无法处理的偏差。
|
工程门类 |
系统主体 |
人在做什么 |
|---|---|---|
|
机械、化工 |
物理回路 |
拉回物理偏差(设备故障、原料波动) |
|
电力 |
电网调度 |
拉回负载偏差(突发用电、机组故障) |
|
航空航天 |
自动驾驶 |
拉回飞控边缘场景 |
|
核电 |
反应堆 |
拉回安全边界偏差 |
|
AI 软件工程 |
认知回路 |
拉回 AI 自己纠不回的认知偏差 |
工程化的进程,本质上就是把人从主回路移到边界监督位的过程。人始终守在系统能力的边界外侧,专门处理系统暂时还没办法处理的偏差。
再往上抽一层,可以总结成一条规律:工程化扩张的本质是把”原本无法工程化的事”持续变成”可工程化的事”,人永远站在工程化边界的外侧,边界往外推,人也跟着往外迁移。这给了 AI 时代一个相对乐观的工程哲学——人不会被淘汰,因为新的”不可形式化边界”会一直冒出来。
但这个乐观底下藏着一个挺严峻的事实:能在这种边界上工作的人会越来越少,因为形式化吃掉的都是低阶认知,剩下的都是越来越高阶的部分。
3.4 AI 工程的偏差拉回是一次本质升级
经典工程的偏差拉回有几个隐含前提:偏差类型是可枚举的(机械故障的种类有限)、偏差信号是可观测的(仪表会报警)、拉回手段是 SOP 化的(按操作规程办)。
到了 AI 工程,这三条几乎全都不成立。
|
维度 |
经典工程偏差 |
AI 工程偏差 |
|---|---|---|
|
类型 |
可枚举 |
不可枚举(幻觉、漂移、长尾、对抗) |
|
信号 |
可观测 |
隐蔽(输出看起来合理但悄悄错了) |
|
手段 |
SOP 化 |
需要专家级判断 |
|
时间窗口 |
拉回前可降级运行 |
错误已经扩散到下游产物 |
这意味着 AI 工程里的”偏差拉回者”,专业门槛远高于传统运维岗。你需要一个人同时具备业务理解、AI 能力评估、形式化验证、反例构造这几样东西。这种人本来就稀少,未来只会更稀少。
3.5 软件研发人力会怎么流动
按上面这条铁律,软件直接生产人力会大幅减少,但研发相关总人口未必。释放出来的人会流向四个方向:
-
真正高价值的产品定义岗:用户洞察 + 商业判断 + 跨域整合,这一类极度稀缺,少数人能进入。
-
被稀释的伪定义岗:AI 让人人都能写需求,定义价值这件事的门槛被拉低,多数人会落在这里,竞争反而更激烈。
-
AI 产线建设、维护、调优岗:这是真正的新增主力岗位,也是这一波最关键的新主线,但门槛很高。
-
被工程化彻底淘汰、外溢到其他行业的人:这一部分被讨论得很少,但必然存在。
这里有个细节值得提醒一下:软件世界的”产品定义”扩张不像实体产品那样指数级增长。一旦 AI 能以极低边际成本生成软件,软件供给曲线变得几乎水平,单个软件的”被定义价值”会被快速稀释。所以”流向产品定义岗”这件事不是均匀扩散,而是高度集中化——真正能定义”哪些软件值得被定义”的人,会非常少。
四、AI 真正的价值,是把人的注意力还给人
4.1 主流叙事浅了一层
业界讨论 AI 价值的时候,主流叙事是”AI 让人做事更快”。这个说法当然没错,但它停在一个比较浅的层面。
如果换一个角度——人作为碳基智能体,算力本来就是有限的,注意力是稀缺资源——那 AI 真正的价值就不是”加速生产”,而是把人的注意力从一堆琐碎事务里释放出来,让它能集中到只有人能做的事上。
这两个视角看着差不多,但长期会分化成完全不同的产业组织形态。
|
视角 |
AI 在做什么 |
人变成了什么 |
|---|---|---|
|
效率视角 |
让人做事更快 |
在大量琐碎事务里继续打转,只是更快 |
|
注意力视角 |
让人不需要再做那些事 |
退守到最稀缺的判断位上,做更少但更关键的事 |
效率视角下你会鼓励人多用 AI,做更多事;注意力视角下你会鼓励人多用 AI,把更多事从自己手里挪走。
4.2 这正好和”人是偏差拉回者”对上了
注意力视角下 AI 的目的就清楚了:不是替代人,是让人能集中算力做只有人能做的事——也就是边界守卫、价值定义、偏差仲裁。
也就是说 AI 为中心这件事的真正动机,不是”让 AI 多做”,而是”让人能少做但做对“。这一句话能把后面所有路线推演的终极目的说明白。
五、为什么”人为中心 + AI 辅助”是弯路
5.1 当下业界主流模式
现在业界主流的 AI 工程模式,不管叫 Copilot、Cursor、Cline,本质上都是”人为中心 + AI 辅助”——人依然是流程主体,AI 只是局部加速器。
这种模式听起来稳健,做起来也容易上手,老板也愿意为它付费,员工也不抵触。但它在范式层面是错的。
5.2 它没有消除不确定性,它在循环放大不确定性
在 Copilot 模式下,AI 的训练数据是人写的代码,它学到的是人类程序员的模式、风格,包括各种典型错误。它没有自己独立的、可验证的、确定性的”质量函数”——它只是在概率上模仿”看起来像对的代码”。
这件事的麻烦在于:
人的不确定性→AI训练数据↓AI学会人的不确定性模式↓AI输出=人的不确定性的"统计平均"↓人reviewAI输出,但review的标准还是人原来的标准↓不确定性在「人→AI→人」之间循环往复,被放大、被合法化
人成了唯一的偏差拉回者,但这个角色本身就是旧软件工程失败的根本原因——人脑覆盖不了状态空间。让人去校验 AI,等于让自己的影子去打自己。
这个判断也解释了一个反直觉的现象:很多团队接入 Copilot 之后,编码速度提升 20-40%,但项目级 bug 率没明显下降,review 工作量反而上升。主流解释是”AI 还不够强”,但更深的解释是:Copilot 这套模式本来就不是为消除不确定性设计的——它是用统计模仿人类工作的概率拟合器。
5.3 反馈回路被人切断了
Copilot 模式还有一个更根本的缺陷:反馈回路是断的。
AI 给出建议,人采纳、修改或者抛弃——这个反馈不会以结构化的方式回到 AI。改了几个字符,但”为什么改”没有信号;不同人的标准还不一样;bug 暴露出来的时候 AI 早已经忘了上下文。这导致 AI 永远停在”通用编程模型”的水平,永远学不会你团队的领域偏好、工程规范、业务约束。
这件事的战略后果比技术后果更严重:在 Copilot 模式下,反馈最终积累到 AI 厂商那里,不在你团队手上。你团队做的事情是在帮 OpenAI、Anthropic 训练他们的下一代模型,但你自己的工程资产没增加。
5.4 真正应该走的双爬坡
把前面这些拼起来,可以推出一个我觉得对未来很关键的判断:AI 软件产线的良率提升,依赖”AI 能力”和”工程框架成熟度”两个变量同步爬坡,而它们之间互相加速。
AI能力越强→工程框架可以承担更多任务→产线的偏差案例库越丰富→AI的训练/调优反馈越充分→AI能力进一步增强
这是个正反馈循环,但这个循环只有在”AI 为中心”架构下才能闭合。Copilot 架构下,反馈会被人这一环节切断,循环转不起来。
把两种模式放一起对比就更清楚了:
|
维度 |
Copilot 模式 |
AI 为中心模式 |
|---|---|---|
|
反馈频率 |
低 |
高(自动验证回路天然产生) |
|
反馈密度 |
低(”接受/拒绝” 1 bit) |
高(验证报告 + 偏差规则) |
|
反馈对象 |
训练通用模型 |
沉淀本团队、本领域的专属规则库 |
|
能力爬坡的载体 |
AI 厂商(你不受益) |
你的产线本身(你直接受益) |
把这件事说得直接一点:Copilot 模式下你团队是在为 AI 厂商打工;AI 为中心模式下,你团队才能积累自己的工程资产。
5.5 历史规律也站在这边
工程史上每一次范式跃迁都遵循同一条规律:新范式的成熟,不是通过”用旧范式包装新工具”实现的,而是通过”重构整个工程流程让新工具占据中心位”实现的。
|
跃迁 |
错误的过渡形态 |
真正的新范式 |
|---|---|---|
|
手工到机械 |
把蒸汽机当大号风箱用 |
设计专门为蒸汽机优化的工厂布局 |
|
机械到电气 |
用电动机直接替换蒸汽机,保持原有传动轴 |
每台机器独立电动机,重新设计车间 |
|
模拟到数字 |
用计算机模拟纸质表单 |
重新设计数字原生流程 |
|
单机到互联网 |
把单机软件搬到网页 |
互联网原生应用 |
|
传统软件到 AI 软件 |
Copilot 在 IDE 里塞 AI 建议 |
认知流水线重构整个开发流程 |
最经典的案例是 20 世纪初的电气化。福特发明流水线之前,工厂用电动机的方式是直接拿它替换蒸汽机——还是用一根传动轴带动整个车间。效率比烧煤略好,但提升有限,三成不到。福特做对的事情是给每台机器单独装电动机,并按”电力本位”重新规划生产线。这一变效率提升了几倍到十几倍。这场变革花了将近 30 年,而第一波”用电动机直接替换蒸汽机”的公司全部被淘汰了。
当下的 Copilot 模式,正是 20 世纪初那种”用电动机直接替换蒸汽机”的过渡形态。它不会是终局。
六、让 AI 工程级可靠的唯一已知机制
6.1 把 AI 推到中心位之后,下一个问题马上来
好,假设接受了 AI 为中心。下一个问题立刻冒出来:怎么让一个概率性输出的 AI,变成工程级可靠的东西?
大模型的根本问题就是输出的概率性——幻觉、漂移、不可形式化验证。这意味着 AI 永远没办法”自证清白”,它的内部状态没法保证输出对错。
所以唯一能让 AI 输出变得工程级可靠的办法,是外部强加一个确定性裁判。把 AI 的概率性输出,强制对接到一个有客观对错的验证系统,让 AI 每一次输出后被迫接受确定性的审判。
|
节点 |
确定性裁判 |
工程化机制 |
|---|---|---|
|
编码 |
编译器 + 单测 + 类型系统 |
“代码能跑且测试通过”是客观事实 |
|
契约 |
契约校验器 |
“符不符合 proto 规范”是客观事实 |
|
部署 |
灰度监控指标 |
“线上是否报错”是客观事实 |
|
设计 |
性能仿真器 |
“压测是否达标”是客观事实 |
一个工程节点能不能把 AI 工程化,本质上取决于那个节点上有没有一个客观的确定性裁判存在。这是把概率性认知工程化的唯一已知机制。
6.2 历史的接力棒
这恰好接上了第一章末尾那个伏笔:过去五十年软件工程的”失败”,反而给 AI 软件工程的”降临”准备好了一件最关键的武器——成熟的自动化验证基础设施。
五十年的 CI/CD、单元测试、类型系统、形式化方法、契约编程,没让软件工程”工程化”,但它们留下了一整套可以拿来当确定性裁判的设施。AI 现在终于可以站在这套设施肩膀上,第一次实现真正的工程化。
这件事我每次想到都觉得有点诗意:“失败的五十年”留下的废墟,刚好是新范式的地基。
七、闭环优先,节点逐步开放
7.1 “逐节点替换”听起来稳,做起来错
从 Copilot 走向 AI 为中心,直觉上的路径是按节点逐个替换:
原流程:人需求→人设计→人编码→人测试→人部署↓逐节点替换人需求→人设计→AI编码→人测试→人部署↓再替换...
但这条路径在工程上是错的。问题在于,每一个 AI 节点都受限于上下游的”人化”接口。AI 节点之间没法直连,被人节点切成了孤岛——每个 AI 节点只能在”人节点夹缝中”做局部优化,没办法形成端到端的 AI 主导流程。
这其实又回到了 Copilot 模式的天花板。
7.2 应该走的是”先建小闭环,再扩边界”
我倾向的路径是这样的:不逐节点替换,先建立一条端到端封闭的”AI 全流程小回路”,再逐步把它的每个节点开放给更复杂的真实需求。
具体形态可以这样想:
第一步:建立小闭环挑一个范围足够小、足够确定的子领域在这个子领域上让AI跑全流程:需求→设计→编码→测试→部署人只在「输入端定义目标」和「输出端验收」两端介入这条闭环就是AI为中心的最小可行原型第二步:闭环内迭代在小闭环内积累偏差案例库把"AI 拉不回 → 人拉回"的规则沉淀到系统AI能力和框架成熟度同步爬坡第三步:扩大闭环边界随着闭环成熟度提升,扩大它能覆盖的领域复杂度第四步:闭环吞并最终扩张到整个软件工程流程都被AI闭环覆盖人退守到价值定义层和偏差边界层
两种策略最大的差别在爬坡的单位上:
|
策略 |
爬坡单位 |
爬坡机制 |
|---|---|---|
|
逐节点替换 |
节点 |
每个节点局部优化,整线没人管 |
|
闭环优先 + 节点开放 |
回路 |
整线良率持续爬坡 |
工程上有句老话其实很贴切:激进的路径,往往是稳健的路径;稳健的路径,往往是慢的路径。
7.3 不同节点的可闭环程度差很多
并不是每个节点都同样适合先动。我会用两个维度评估:形式化程度和验证可自动化程度。
|
节点 |
形式化程度 |
验证可自动化程度 |
当前可建闭环 |
|---|---|---|---|
|
需求分析 |
低(自然语言) |
低(”对不对”靠人) |
困难 |
|
系统设计 |
中(架构图、接口) |
中(性能可仿真,可维护性难判) |
部分可行 |
|
编码 + 测试 |
高(语法、类型、契约) |
极高(编译 + 测试) |
最适合先做 |
|
发布运维 |
高(监控指标) |
高(自动告警 + 回滚) |
适合做 |
这就给出了一个挺关键的结论:“AI 为中心”不是一夜之间全节点切换,而是从形式化程度最高的节点开始向外辐射。
这恰好对应工业革命的真实路径:先是纺织(最容易机械化的环节),后是运输,再是通讯,最后才是管理决策。
按这个顺序展开会是这样:
第一阶段:先在"编码 + 测试"建立AI闭环选小领域(管控点、契约、异常码这种)建"生成 - 验证 - 修复"全自动循环沉淀偏差规则库让产线良率开始爬坡第二阶段:扩展到"发布运维"AI自动渐进发布AI自动监控、定位、回滚把编码闭环和运维闭环连起来第三阶段:上探到"系统设计"第四阶段:最后才是"需求分析"等大模型在"业务理解"上有质变在此之前,需求节点保持"人为中心 + AI 辅助"是合理的
八、落地:分治结构继承与六阶段演进
8.1 分治结构应该被继承下来
这条路径有个底层判断:AI 时代的研发组织结构,应该继承人类组织已经验证有效的”分治网络/树形结构”,而不是被 AI 重新发明。
这一点为什么重要?因为它点出一个被普遍忽略的事实:“分治”不是人类组织的偶然选择,而是注意力有限的智能体处理复杂问题的必然结构。
人在解决复杂问题时面临一个矛盾——知识广度和精度不能兼得。这是注意力有限的根本表现。人类的解决方案是分而治之,把问题拆成网络或树形结构,每个节点负责一部分。
只要 AI 注意力同样有限(事实上当前所有大模型的上下文窗口都是有限的),AI 组织就必须遵循同样的分治结构。这一点 AGI 出现之后也不会变,因为算力和注意力总是有限的。
8.2 这把”等 AGI”的等待心态打穿了
很多团队在 AI 工程化上观望,本质上是在等”模型够强”。但如果分治结构是必然的,那这个等待就没意义了——就算未来出现 AGI,组织结构依然要分治。
分治结构是 AGI 之前就要建好、AGI 之后还能继续用的工程基础设施。它不是过渡方案,是终极方案。现在不建,等 AGI 来了再建,会被已经建好分治结构的玩家代际碾压。
工业革命的真实历史就是这样——福特流水线的”分工结构”在电气化、自动化、机器人化时代都被继承下来,分工的颗粒度变了,但分工本身没变。
8.3 现有研发组织结构会被怎么继承
这里要先澄清一个关键点:“继承”指的是结构骨架被继承,分治边界、协作拓扑、评审校验环节、组织接口这些保留下来;不是人的岗位被继承。
所有传统软件工程角色——不管是代码生产、测试、发布、问题定位,还是方案设计、评审、跨域协调——最终都会被对应的 AI 产线全面接管,人最终都要站在产线外。差别只是先后顺序,不是有没有。这恰好和上一章”节点的差异化展开顺序”完全一致:编码 + 测试,然后发布运维,再然后系统设计,最后是需求分析。
|
现有组织结构 |
结构骨架是否被 AI 产线继承 |
人退到产线外的时序 |
说明 |
|---|---|---|---|
|
分治单元(产品域、业务域) |
完全继承 |
不适用,结构本身不是岗位 |
边界保留,承载者从人换成智能体集群 |
|
代码生产团队 |
继承为”编码产线” |
第一波(已经在路上) |
形式化程度最高、确定性裁判最完备,最先被产线化 |
|
测试团队 |
继承为”测试产线” |
第一波(与编码同期) |
与编码产线天然耦合,自动验证基础最成熟 |
|
发布团队、SRE |
继承为”发布产线” |
第二波 |
监控、灰度、回滚已经高度自动化,剩下的是 AI 接管决策 |
|
问题定位团队 |
继承为”问题定位产线” |
第二波 |
日志、链路、根因分析有结构化输入,AI 接管路径清晰 |
|
评审团队 |
继承为”评审智能体集群” |
第三波 |
多模型对抗评审替代多人评审,但需要先有可形式化的评审标准 |
|
方案设计团队 |
继承为”方案设计智能体集群” |
第三波 |
需要等领域本体足够形式化(管控建模、契约建模成熟) |
|
需求分析、产品定义 |
继承为”需求产线” |
第四波(最晚) |
隐性知识最密集、确定性裁判最弱,最后被产线化 |
|
跨域协调(架构组、总监层) |
继承为”分工协调总线” |
第四波 |
元控制器,本身就是产线的产线,只能在所有子产线成熟后建成 |
这里有一个观察可以再强调一下:没有哪一类角色是”被特殊优待保留”的。所有团队都会在它对应的”确定性裁判”成熟时被产线化吸收,然后人退守到该产线的边界监督位。
进一步推论:“产线设计师”角色本身也终将被更高阶的产线吸收——只要某天”如何设计产线”这件事的确定性裁判被建立起来。这是这套理论的递归一致性,没有终极避风港,只有持续的边界外推。
8.4 六阶段演进路线
把单条产线(编码 + 测试)的建设细化成阶段:
阶段1:单分治单元70%需求实现0人工代码AI写出70%的代码,但还需要人审查、修改这是当前业界主流位置(接近这一阶段)阶段2:单分治单元90%需求实现0人工代码AI写出90%的代码,剩下10%是真正复杂场景这是当前最先进团队的位置★阶段3:单分治单元70%需求实现0人工接管质变点——AI不只写代码,连"自己不知道怎么办"也消失了这是从"概率正确"到"工程可靠"的跨越★关键质变断点阶段4:单分治单元80%-90%需求实现0人工接管单分治单元几乎完全自治单元已经成为"AI 产线模块"阶段5:搭建分工协调总线把多个自治单元连起来,形成完整产线元控制器登场,对应原有的方案设计、评审团队等阶段6:法不变同理复制第一条产线(编码+测试)建成后,方法论沉淀为模式按7.3节点形式化程度由高到低复制:第一波:编码+测试产线(已含在阶段1-5)第二波:发布产线+问题定位产线第三波:系统设计产线(需领域本体足够形式化)第四波:需求产线(最晚——隐性知识最密集,确定性裁判最弱)所有研发最终转变为产线维护、设计工程师,不在任何核心产线内部
8.5 阶段 2 到阶段 3 中间藏着一个质变
这条路线最锋利的设计在阶段 2 到阶段 3 中间——从”0 人工代码”到”0 人工接管”是一次质变,不是量变。
很多团队会以为达到”AI 写出 90% 代码”就接近自动化了。但事实是:写出代码不等于不需要人——剩下的 review、纠错、澄清歧义这些”接管”环节才是真正的瓶颈。
|
阶段 |
对应机制 |
关键挑战 |
|---|---|---|
|
0 人工代码 |
AI 生成能力 |
AI 模型本身够不够强 |
|
0 人工接管 |
不确定性自纠 + 隐性知识蒸馏 |
AI 自己能不能识别”我哪里错了” |
从阶段 2 到阶段 3 的跨越,根本不是模型能力升级能解决的。它必须靠三件事配合:确定性的强迫接触(前面讲过的自动验证基础设施)、场景驱动的隐性知识蒸馏(领域规则库的沉淀,第十章详细讨论)、还有一种主动反思机制——AI 主动追问”我为什么被纠正”。
8.6 阶段 5 的”分工协调总线”
阶段 5 引入了一个我觉得很关键的概念:分工协调总线,对应原有方案设计、评审团队的智能体化。
要先做一个时序辨析:阶段 5 搭建协调总线(基础设施建成),不等于 §8.3 里”跨域协调团队第四波退守产线外”(人岗位变迁)。
-
阶段 5 :协调总线作为编排基础设施搭建起来,但此时它编排的还主要是编码、测试产线,元控制器的关键决策仍然由人(架构组、总监层)做出。
-
第四波:当所有子产线都成熟、协调总线本身也积累了足够的”产线编排偏差案例库”,才轮到跨域协调团队作为人退守到这条总线的边界监督位。
基础设施先建好,人后退守——这恰好是工业革命的真实路径:流水线先建好,工艺工程师才从车间退到调度室。
这个总线的妙处在于:它不是技术总线(事件总线、消息总线),而是组织结构的工程化映射。
|
维度 |
经典消息总线 |
分工协调总线 |
|---|---|---|
|
承载内容 |
事件、消息 |
任务、协作流程、评审决策 |
|
节点 |
服务 |
智能体集群(每个对应一个原团队职能) |
|
控制 |
消息路由 |
任务分发 + 评审编排 + 偏差仲裁 |
|
元数据 |
消息元信息 |
领域知识、评审标准、历史决策 |
这个总线的本质是组织协作流程的代码化——从”组织架构到软件架构”的同构映射。AI 时代要建的”产线”,和当前的微服务架构、消息中间件,是完全不同的东西。它需要一个新的”组织级中间件”,业界目前没有任何公司在做这件事。
8.7 法不变,同理复制
第一条产线建好之后,方法论本身可以沉淀为可复制的工程模式,并指数加速地扩展到测试、需求、发布、问题定位等所有研发环节。
第一条产线(编码产线)建成需要大约x年(艰难探索)第二条产线(测试产线)建成需要大约x/2年(复用方法论)第三条产线(发布产线)建成需要大约x/4年...
这是一个指数加速过程——一旦第一条产线跑通,后续产线的建设速度会快速收敛。福特流水线建立后二十年内汽车、电器、纺织、化工全部产线化,就是这个规律——从 1 到 N 的扩张比 0 到 1 快得多。
战略含义很直接:今天投入”第一条产线”建设的团队,会获得不对称的战略优势。他们率先掌握了产线建设方法论,未来所有领域都能复用这套方法论。
8.8 分治单元的颗粒度是隐藏前提
这条路线图所有阶段都建立在一个隐含前提上——分治单元已经被合理切分。这个前提其实是最难达成的。
切错的典型方式有三种:
-
切得太大:单元内部仍然超出 AI 注意力极限,”0 人工代码”做不到。
-
切得太小:单元间通信成本暴涨,协调总线变成瓶颈。
-
按技术分而不是按业务分:单元间高度耦合,没法独立演进。
那应该怎么切?工业革命给出过答案——按”端到端业务价值”切。
汽车流水线不是按”螺丝、电焊、喷漆”切,而是按”前桥、底盘、车身、动力”切——每个单元都对应一个端到端的业务子价值。映射到 AI 软件产线,分治单元应该按”完整的业务能力”切,而不是按”技术模块”切。
九、四节点重构的具体形态
9.0 三种切法的统一映射
文章在不同地方用了三种粒度来切软件工程流程,先把它们的映射关系说清楚:
|
视角 |
切分维度 |
数量 |
对应章节 |
|---|---|---|---|
|
流程节点 |
按”工作内容相似性” |
4 个 |
9.1 |
|
产线 |
按”独立 AI 闭环可行边界” |
5 条 |
8.4 |
|
现有团队 |
按”传统组织分工” |
8 类 |
8.3 |
三者不是一一对应,而是逐层细化:
节点(最粗)→产线(中粒度)→团队(最细)══════════════════════════════════════════节点1:需求分析→需求产线→需求、产品团队节点2:系统设计→系统设计产线→方案设计+评审团队节点3:编码+测试→编码产线+测试产线→代码生产+测试团队节点4:发布运维→发布产线+问题定位产线→发布、SRE+问题定位团队跨节点元控制→分工协调总线(不是产线,是产线编排器)→跨域协调(架构组、总监层)
几个细节解释一下:
-
“编码 + 测试”在 9.1 合并为一个节点,因为它们的确定性裁判几乎共享(编译 + 单测);但作为产线被独立部署时,可以拆为两条(生成产线 + 验证产线)。
-
“发布运维”在 9.1 是单一节点;但”问题定位”在工程上有独立的输入输出(日志、链路),可以独立产线化。
-
“分工协调总线”不是产线本身,而是产线之间的编排器,所以不出现在节点和产线列表里,但出现在 8.4 阶段 5 和 8.6。
9.1 四个节点分别会怎么变
需求分析节点
AI 为中心:智能体基于对话和资料库,直接生成结构化的需求规格说明书、用户故事地图和验收条件。
人工辅助:产品经理和用户不再”写需求”,而是审查和剪刀——发现 AI 遗漏的隐性需求、模糊的定义、不符合业务价值排序的地方,并补充修正。每一次修正都是一次强对齐信号。
系统设计节点
AI 为中心:智能体基于确认的需求,生成多种架构方案,并自我模拟评估其非功能属性(性能瓶颈、单点故障等等)。
人工辅助:架构师不画图,做仲裁和权衡——当 AI 给出两个在技术上同样可行、但在”可维护性”和”快速上市”之间有冲突的方案时,人介入,基于经验和战略做最终裁定。这是定义”什么才是更好的偏差”。
编码与测试节点(革命性最强)
AI 为中心:核心不是 AI 写代码,而是建立一个自动生成、自动验证的循环——AI 生成代码 → AI 生成测试用例 → AI 执行测试并修复 → 直至通过所有验证。这个循环甚至可以包含多个专门 AI(生成者、审查者、测试者),像流水线一样对抗协作。
人工辅助:开发者的角色进化为”AI 产线调试员”。他不再写具体功能,而是在循环外设定目标架构和不可逾越的约束;监控自动循环的健康度——测试覆盖率是否在下降,生成代码是否在关键模块出现不可解释的复杂性;当 AI 循环自己转不动或者陷入错误的局部最优时,切入注入新的知识或者直接修正关键代码块,做工艺级的偏差拉回。
发布与运维节点
AI 为中心:AI 自动进行渐进式发布、实时监控异常、根据日志自动定位故障根因并尝试回滚或热修复。
人工辅助:SRE 成为最终安全阀——处置 AI 无法理解、需要跨系统权衡的复杂故障(比如,是牺牲一部分用户体验来保证核心交易链路,还是相反)。这是定义”系统安全的最终值函数”。
9.2 分层递阶控制结构
把上面这些节点放进一个分层递阶控制结构里:
┌──────────────────────────────────────────────────────────┐│第4层:哲学层/价值层││-价值函数定义←AI价值架构师││-战略对齐←CEO/CTO││-伦理仲裁←独立伦理委员会│├──────────────────────────────────────────────────────────┤│第3层:决策层(治理)││-产线目标架构←组织级架构师││-安全红线←AI治理官││-自主修改授权←ChangeAdvisoryBoard│├──────────────────────────────────────────────────────────┤│第2层:协调层(产线编排)││-智能体编排←认知流程架构师││-实时监控干预←AI产线工程师││-多智能体调优←AI调优师││-涌现偏差归因←跨层诊断专家(关键新岗位)│├──────────────────────────────────────────────────────────┤│第1层:执行层(兜底)││-隐蔽Bug兜底←资深技术专家││-形式化验证←形式化方法专家│└──────────────────────────────────────────────────────────┘
经典分层递阶控制是决策、协调、执行三层。AI 软件工程要做两处扩展:往上扩出一个哲学价值层,因为”价值函数定义”不属于决策层;协调层增加一个横切机制,专门处理跨层涌现偏差。
这里要补一个递归一致性的提醒:第 4 层”哲学价值层”也不是终极避风港。一旦”价值函数定义”这件事的确定性裁判被建立起来(比如可量化的伦理评估器、可仿真的战略沙盘),这一层同样会被产线化吸收,人会继续向更高的元层迁移。当前把它列为最高层,是因为它在可见的十到十五年时间窗内”确定性裁判最难建立”,而不是它具有”原则上不可工程化”的地位。
9.3 经典递阶控制在 AI 系统里失效的地方
经典分层递阶控制有一个隐藏前提:下层的扰动不会逆向传播到上层。但 AI 系统会破坏这个前提,原因有几个。
第一个失效是 AI 的能力会”自下而上”重塑上层目标。执行层的 AI 能力突变(比如 GPT 升级),会逼协调层重新划界。经典控制论里没有”执行单元能力突变”这种情况,但在 AI 系统里这是常态。AI 软件产线的层级边界本身是不稳定的,需要经常重新划界。
第二个失效是 AI 的偏差会”涌现”,没法预先归因到某一层。经典系统里偏差是可定位的——温度高了就是温控器问题。但 AI 系统里,一段错误代码可能是需求理解偏差(决策层),可能是智能体编排错误(协调层),可能是单个智能体输出问题(执行层),也可能是几个智能体的交互涌现。多智能体系统的偏差经常是涌现性的,不归属于任何单一层级。AI 产线工程师在做偏差归因时,会面临一种经典工程师从来没见过的复杂度。
修正方式是增加一个跨层耦合控制的横切机制:
┌─────────────────────────────┐│决策层│├─────────────────────────────┤│协调层│←横切层:偏差归因/涌现监测/层级再划界├─────────────────────────────┤│执行层│└─────────────────────────────┘↑↓双向耦合
横切层不是新的层级,而是专门处理跨层涌现偏差的诊断与重构机制。这一层在经典工程里不需要,但在 AI 工程里是关键岗位。
9.4 价值函数定义和偏差仲裁是两回事
需要把”价值函数定义”和”偏差仲裁”拆开,它们性质完全不同:
|
维度 |
价值函数定义 |
复杂权衡仲裁 |
|---|---|---|
|
时机 |
系统设计时 |
系统运行时 |
|
频次 |
低频,但影响深远 |
高频,但单次影响小 |
|
能力要求 |
抽象建模 + 长期判断 |
实时决策 + 多目标平衡 |
|
类比 |
工艺设计师 |
调度员、应急指挥 |
|
出错成本 |
极高(系统从根上跑偏) |
中等(可纠正) |
它们最终会分化为两个完全不同的岗位——AI 价值架构师在系统启动前定义”什么是好”;AI 运行时仲裁员在系统运行中处理价值冲突。价值架构师的稀缺性远高于仲裁员——前者影响整个系统的方向,后者只影响单次决策。
十、真正最难的那道坎:场景驱动的隐性知识蒸馏
10.1 这件事是整套理论里被低估最多的一关
前面所有讨论的”双爬坡””闭环优先””节点重构”——都是”建好之后怎么跑”的问题。真正最难、最被低估、也最具决定性的一道坎是:怎么把它建起来。
|
难题 |
难度 |
原因 |
|---|---|---|
|
建立 AI 闭环 |
中高 |
需要重构流程,但有方法论参考 |
|
设计自动验证机制 |
中 |
软件工程五十年积累了基础设施 |
|
分层递阶控制 |
中高 |
需要新岗位,但岗位可培养 |
|
隐性知识的主动蒸馏 |
极高 |
既无成熟理论,也无成熟工具,且专家自己都不知道自己懂什么 |
10.2 新人和 AI Agent 在”成为独当一面”这件事上差距在哪
注意力释放论说,AI 让人能集中算力做更高价值的事。但要真正实现这一点,必须先解决一个问题:怎么让 AI 独当一面,把人的注意力提走?
可以做个对照——一个新人和一个 AI Agent,在让他们成长为独当一面的过程中,到底有什么不同?
|
维度 |
新人 |
AI Agent |
|---|---|---|
|
被动接收能力 |
中等 |
极强(一次性吃下整个 codebase) |
|
主动追问能力 |
强(会问”为什么”) |
弱(被问才答) |
|
元认知能力 |
强(”我哪里没懂”) |
弱(不知道自己不知道) |
|
反思归纳能力 |
中(写复盘、总结模式) |
几乎没有(每次会话独立) |
|
知识蒸馏能力 |
强(能从老员工身上”挖”知识) |
几乎没有(只能基于已显化的文本) |
|
跨场景关联 |
中 |
中(取决于上下文窗口) |
|
长期记忆沉淀 |
强(经验内化为直觉) |
极弱(默认无状态) |
新人和 AI 在”接收 / 学习能力”上其实差不多,AI 在某些维度甚至更强。但在”主动蒸馏知识”这件事上,差距是数量级的。
我会这么总结:AI 缺的不是智能,是”自主开采知识矿”的能力。
10.3 知识不会自然流淌出来
这里有一条我觉得很重要的元规律:人的知识不会自然流淌出来,必须被具体的问题和场景驱动才会被逐步从大脑中蒸馏出来。
回想人类组织搞知识管理的所有失败案例:
|
尝试 |
失败模式 |
|---|---|
|
Wiki / Confluence |
写的人没动力,看的人找不到 |
|
知识管理系统(KM) |
大量文档堆积,但用的时候搜不到 |
|
ISO 9001 流程文档 |
一旦写完就过时,没人维护 |
|
RAG / 知识库 |
喂进去的是”显性知识”,不是”被场景驱动蒸馏的知识” |
所有失败的共同根因都在这一条上:没有问题驱动,专家脑子里 90% 的”经验直觉”永远不会被显化。
这件事在哲学上其实不是新洞察。波兰尼 1958 年就讲过——”我们知道的比我们能说出来的多”(We know more than we can tell)。当时是哲学命题,现在变成了 AI 工程化的核心瓶颈。
10.4 这件事我会叫它”场景驱动的隐性知识蒸馏”
这是 AI 为中心范式得以成立的关键工程门槛。它的核心特征有几条:
-
场景驱动:知识必须由具体问题、场景驱动才能涌现,孤立提问问不出来。
-
主体二元:蒸馏的主体不能是 AI(AI 没有主动性),但也不能完全是人(人有惰性)。
-
协作回路:必须由人和 AI 共同构成”主动追问 + 即时反馈”的协作回路。
-
场景化存储:蒸馏出的知识必须以”场景化”格式存储,而不是”陈述性”格式。
10.5 这道坎为什么特别难
第一个难点:专家自己都不知道自己懂什么。
即使你直接问专家”请把你所有经验告诉我”,他能输出的只是冰山一角。剩下 90% 他自己都不知道自己拥有,必须等具体问题碰到了才会涌现。”知识蒸馏”在结构上比”知识采集”难一个量级——你不能”问出来”,你必须”逼出来”。
第二个难点:蒸馏需要”对的问题”,但”对的问题”本身需要知识才能问出来。
要让专家的隐性知识涌现→需要问"对的问题"要问"对的问题"→需要懂这个领域而AI不懂这个领域→问不出对的问题→蒸馏失败↑↓这是个死循环
现实中这个死循环靠新人的主动性打破——新人会去观察、试错、被骂、归纳,慢慢摸索出对的问题。但 AI 没有主动性,它的”问题”是被人喂的,所以它永远进不了这个死循环。
第三个难点:蒸馏出的知识形态是”场景化的”,不是”陈述性的”。
专家的知识不是”什么是 X”,而是”在 Y 场景下应该怎么办”。这意味着蒸馏出来的知识必须以”场景 + 决策”的方式存储,而不是”事实 + 解释”。但当前的 RAG 系统、知识图谱、向量库全都是为陈述性知识设计的——AI 软件工程缺一个”场景化知识”的存储和检索范式。
10.6 几个可以入手的方向
按可落地性从近到远排:
方向一(近期可做):让 AI 主动问”我为什么被纠正了”。
AI输出→专家修改→系统强制触发:AI主动比对修改前后AI自己生成假设:"专家可能基于什么规则做了这个修改?"专家确认或修正AI的假设沉淀为"场景规则"入库
这个机制的关键是把”专家被动修正”变成”AI 主动追问”,把知识蒸馏的认知负担从专家转移到 AI——专家只做判官,不再做老师。这一步在工程上完全可行,当前大模型能力够用。
方向二(中期):AI 不等专家来纠错,而是在专家工作时全程跟随观察。
专家做日常工作(写代码、review、决策)↓AI全程在旁观察+标注异常点:专家做了X,但通常情况下应该做Y这个判断和上次的判断不一致,是为什么?专家在某个步骤停顿了30秒,可能在权衡什么?↓AI主动把疑问做成清单→专家在合适时机回答→入库
类比一下就是新人入职”看老员工怎么做”再问”刚才那个为什么这样处理”。AI 从被动接受指令变成主动观察和提问。
方向三(中期):场景化的知识库格式。
要让蒸馏出的知识能被复用,存储格式必须从”陈述性”变成”场景化”:
scenario_id: SCN-001context: - 业务领域:跨境支付 - 触发条件:商户提交退款且金额>单笔限额 - 上下游状态:原支付已结算+商户余额不足decision: - 推荐动作:拆单退款 - 不推荐动作:直接拒绝rationale: - 商户体验:避免一次性大额拒绝 - 风控原则:拆单后单笔风险可控 - 历史依据:2024-Q3类似场景共发生N次,全部用拆单方案exceptions: - 当商户处于风控黑名单时,仍直接拒绝provenance: - 蒸馏来源:与专家X在2026-05-23关于工单#YYY 的讨论
这种格式有几个关键特性:context 让 AI 能精准匹配,rationale 让 AI 理解”为什么”从而扩展到相似场景,exceptions 让 AI 识别”什么时候这条规则不适用”,provenance 让人可以审查、追溯、维护。这是 RAG 时代的下一代知识库形态。当前没有任何主流工具支持,但这是必经的方向。
方向四(长期):AI 主动构造极端案例反向逼问专家。
AI已掌握部分领域知识(来自前面方向积累)↓AI主动构造"边缘场景":"如果 X 发生在 Y 的同时,应该怎么办?""你说过 A 应该这样处理,但当 B 也成立时还成立吗?""我注意到规则 R1 和 R2 在 C 场景下会冲突,怎么解?"↓专家被迫思考从未遇到过的场景→输出新知识→入库
这个方向的妙处是让 AI 的”知识盲区”反过来变成蒸馏的杠杆。AI 不知道的越多,能问出的好问题就越多,专家被逼出的隐性知识就越多。
这恰好对应工程史上的一条铁律:最深的知识,永远是被”那个不该回答的问题”逼出来的。
十一、人的位置:从”人肉编译器”到”产线设计师”
11.1 过去五十年程序员的真实角色
我想用一个有点戳人的说法重新定位过去五十年程序员的角色:很大一部分软件从业者,其实是在充当”人肉编译器”——把模糊的业务需求翻译成精确的机器指令。
这话有点伤人,但放下情绪冷静看:
|
表象 |
真相 |
|---|---|
|
程序员是”创造者” |
大部分时候是翻译者 |
|
软件开发是”创作” |
大部分时候是形式化编码 |
|
编程是”高阶认知工作” |
大部分编码工作是”模糊语义到精确语法”的机械翻译 |
这就推出一个挺尴尬的结论:过去五十年软件行业的”高薪”,本质上是在为”翻译能力的稀缺”付费,而不是为”创造能力”付费。
而大模型恰好就是第一个比人更便宜、更稳定的”语义翻译器”——它直接打中了软件行业薪酬结构的命门。这也解释了为什么 AI 对软件行业的冲击会比对其他白领行业更剧烈:因为软件行业的”高薪溢价”恰好建立在 AI 最擅长的能力上。
这里要补一个对照,避免和前面”过去五十年留下了 CI/CD、单测、类型系统等新范式地基”的褒义评价产生矛盾。这俩判断其实是同一枚硬币的两面:
|
面向 |
主体 |
评价 |
|---|---|---|
|
人所做的”模糊语义到精确语法翻译” |
程序员的认知劳动 |
是被 AI 替代的命门——薪酬溢价的真实来源被打中 |
|
过程中沉淀的工具链(编译器、测试、契约、监控) |
工程基础设施 |
是新范式的地基——下一代的”确定性裁判”就建在它上面 |
换句话说:程序员个人的劳动被贬值了,但程序员群体留下的工具链反而升值了。这两个评价并存才完整,它们一起回答了”为什么过去五十年是失败的工程化,但又不是白费的五十年”这件事。
11.2 五类全新岗位
把”产线建设、维护、调优”具体化下来,会出现五类岗位:
|
岗位 |
职能 |
类比经典工程 |
|---|---|---|
|
AI 产线架构师 |
设计软件生产流程:哪些环节 AI 做、哪些人做、如何衔接 |
工艺工程师 |
|
认知 SOP 工程师 |
把领域知识沉淀为 AI 能稳定执行的流程模板 |
工艺标准编写员 |
|
偏差检测工程师 |
设计自动验证 / 反例生成 / 输出审查机制 |
QA、质量工程师 |
|
AI 产线调优师 |
持续优化提示词、知识库、模型选型,提升产线良率 |
产线调优师 |
|
认知边界守卫 |
处理 AI 拉不回的偏差 |
资深工艺专家 |
这里面最稀缺的是”认知边界守卫”。它本质是”偏差拉回”具象化后的产物,要求一个人同时具备比 AI 更深的领域知识(否则识别不出 AI 错在哪)、比普通人更强的元认知(能判断 AI 的判断是否合理)、还有形式化思维(能把模糊偏差转成可验证规则)。
11.3 终极稀缺岗位是”产线设计师”
往前推到阶段 6 之后还会进一步分化:
阶段6:所有研发都是产线维护工程师↓阶段7(推论):产线维护工程师内部分化产线运维工程师(维护现有产线,类似SRE)产线设计师(设计新产线,定义分治结构)★真正稀缺
为什么会分化?因为维护是高频但低密度认知的工作,会被工具进一步自动化;而设计是低频但极高密度认知的工作,永远稀缺。
产线设计师的能力画像我会画成这样:
|
能力维度 |
要求 |
|---|---|
|
业务理解深度 |
极高(必须能识别业务的”自然分治边界”) |
|
工程方法论 |
极高(必须懂分层递阶控制论、二阶控制论) |
|
隐性知识蒸馏能力 |
极高(必须能把专家直觉变成产线规则) |
|
跨域抽象能力 |
极高(必须能复用方法论到不同领域) |
11.4 教育体系的滞后
如果未来软件工程师的核心岗位变成”产线架构师 / 认知流程架构师 / 跨层诊断专家 / 产线设计师”,那今天的高校课程体系完全无法培养这种人——计算机系教编程,但新岗位不需要写代码;控制论在自动化系,但他们不懂软件;系统工程在工业工程系,但他们不懂 AI。
这意味着未来十年会出现一种全新的复合型工程师,但没有任何高校在批量培养他们。这是一个挺大的人才结构性短缺。
一个推论:腾讯这种大厂有可能比高校更早完成新一代工程师的培养。
十二、把这些串起来
12.1 整体逻辑骨架
把前面所有讨论压成一条主链,大致是这样:
软件工程过去五十年其实没真正工程化↓因为缺少能源换高阶智能这件事↓大模型实现了它但同时带来了模型的不确定性↓应对范式二阶控制论(设计能自我纠偏的系统)↓人的角色偏差拉回者+边界守卫者+价值定义者↓AI的位置必须是"为中心",否则会陷入不确定性回声室双爬坡无法启动↓工程化的唯一机制确定性的强迫接触(外加确定性裁判)↓落地策略闭环优先+节点逐步开放↓组织结构继承分治网络↓演进路径六阶段演进+法不变同理复制↓真正最难的瓶颈场景驱动的隐性知识蒸馏↓终极人力位置产线设计师+认知边界守卫
12.2 当前的窗口期
我会说一句可能有点煽动的话:这是一个会被五年后回看才意识到价值的窗口期。
认真把”AI 为中心 + 闭环优先 + 分治继承 + 隐性知识蒸馏”这一整套做透的团队,很可能会不远将来对 Copilot 玩家形成代际碾压——就像福特对手工作坊那样。
结语
过去五十年,软件工程一直在”管理人的不确定性”,但从未真正工程化过。
大模型让”用能源换取高阶智能”第一次成为可能——这才是软件工程真正降临的时刻。但降临不是自动完成的,它需要一场范式的真正变更:
-
范式上:从”人为中心 + AI 辅助”转向”AI 为中心 + 人工辅助”。
-
机制上:把”确定性的强迫接触”做成 AI 输出的工程化裁判。
-
结构上:继承人类组织的分治网络,建立”分工协调总线”。
-
路径上:闭环优先而不是节点替换,从形式化最高的”编码 + 测试”节点起步。
-
门槛上:攻克”场景驱动的隐性知识蒸馏”这道最难的关。
-
人的位置上:从”人肉编译器”重新定位为”产线设计师 + 偏差拉回者 + 价值定义者”。
这不是一个工具升级的问题,是一场比工业革命更深的工程哲学变革。它的真正含义是:软件工程,第一次有可能成为一门和经典工程并列的、真正意义上的工程学。
而这场变革的入场券,发给那些敢于”立刻停止把 AI 当作一个更聪明的键盘,开始把它当作一个有待建设和校准的能源驱动工程系统本身”的人。
夜雨聆风