乐于分享
好东西不私藏

AI软件工程范式革命的思考

AI软件工程范式革命的思考

导语这篇文章想讨论一件事:软件工程过去五十年其实没真正”工程化”过。它一直停留在手工艺阶段,被各种方法论包装成工程,但骨子里还是靠人脑堆。这一点直到大模型出现才开始有可能改变。 我会沿着这条思路往下推:先回看其他工程门类是怎么”工程化”成功的,再看软件这条路为什么走不通;然后讨论大模型把哪一块缺口补上了,又带来了什么新的麻烦;接着是当下业界普遍在走的弯路,以及我认为正确的路径长什么样;最后落到落地路线、组织形态,以及这件事真正最难的那道坎在哪里。 整篇文章是一次完整推演,不是工具评测,不是预测,更像是把很多年里零散的想法串成一条逻辑线。

一、为什么说软件工程是过去五十年最不彻底的工程

1.1 经典工程的胜利路径,其实是同一条

机械、化工、电力、自动化、通讯,这些工程门类长得天差地别,但翻它们的工程史会发现一个共同点:它们都靠”消耗能源把人脑参与的低阶认知回路固化成物理装置”成功的

蒸汽机的离心调速器、化工厂的恒温器和压力调节器、电网的调度装置、流水线上的 PLC——本质上都是同一件事:让原本要靠人盯着、调整、判断的事情,由一台烧煤或者通电的设备自己完成。人从主回路里被剥离出来,退到设计、维护、维修这些位置。

这就是控制论最早的工程实现路径。它的核心结果不是”省了几个工人”,而是不确定性被大规模消除——同样的输入、同样的能源,输出是稳定可预期的。

工程门类

把哪种”低阶智能”固化成了能源装置

人退到哪里

蒸汽机

离心调速器(机械负反馈)

设计与维护

化工

恒温器、压力调节器

工艺设计

电力

电网调度系统

调度仲裁

自动化

PLC、流水线控制器

产线规划

经典工程的”成功”,秘密不在某项技术,而在这套”能源换低阶智能”的范式本身。

1.2 软件工程恰好卡在这条路走不通的地方

把这套范式套到软件上就会发现卡壳了。软件开发要做的事情是抽象、分解、推理、创造——这些都是高阶认知,没法像调速器那样固化成一个物理回路。代码是用人的思维一行一行编出来的,编译器只是忠实地翻译,从不”理解”需求。

所以软件工程一直没法做到”投入能源,另一头流出可工作的软件”这件事。它必须靠大量高密度的人力。而人脑这个认知主体有几个绕不过去的毛病:会误解、会遗漏、不一致。需求从用户口里说出来,传到产品经理,再传到开发,每一道都失真;状态空间稍微复杂一点,单个人的注意力就盖不全;同样一件事,张三和李四的处理方式可能完全不同。

软件危机的本质就是这件事——不是哪个技术不行,而是这个工程门类的认知主体始终是人脑,而人脑在这套生产关系里没法被替换。

1.3 历代方法论其实都在做同一件事:管理人,而不是替代人

把过去五十年的软件工程方法论摊开看,结构化编程、面向对象、敏捷、Scrum、DevOps——它们解决的是同一个问题,而且解决方式是同一种:优化堆人力的方式,但没改变”必须靠人力堆”这个事实

敏捷拥抱变化,DevOps 缩短反馈环,Scrum 把大目标切成小迭代,本质都是承认”人是不可替代的不确定性来源”,然后想办法让这种不确定性更可管理。

这就是为什么我会说软件工程是过去五十年里最不彻底的工程——所有兄弟门类都完成了”能源替代低阶智能”这个动作,唯独软件没有。它在工程的形而上学层面是个残缺品。

1.4 但过去五十年并不是白费的

说这话有个必须澄清的地方:“软件工程是失败的”不等于”过去五十年的所有努力都白搭了”

恰恰相反,这五十年沉淀下来一整套东西——编译器、类型系统、单元测试、CI/CD、灰度发布、契约编程、形式化方法、静态分析、覆盖率、监控、链路追踪。这套东西虽然没让软件工程”工程化”成功,但它们留下了一个非常关键的资产:一整套自动化验证基础设施

这件事到了第六章会再出现,因为它正好是新范式的地基。某种意义上,过去五十年的”失败”是给下一个时代准备弹药——只是当时谁也不知道。


二、大模型补上了那个缺口,但带来了新麻烦

2.1 大模型这件事的工程史定位

大语言模型不是 AGI,但它做到了一件经典工程从来没做到的事:输入电力(最终是算力),输出能理解需求、生成代码、做逻辑推理的高阶认知产物

把这件事放到工程史的坐标里看就很清楚了:

工程史上第一次有了”认知引擎”这种东西。我说”引擎”不是修辞——它和蒸汽机的工程史地位是平行的。蒸汽机让”做功”这件事第一次能源化,大模型让”认知”这件事第一次能源化。

如果上面的判断成立,那软件工程”真正降临”的时刻不是 SCRUM 流行的时候,不是 DevOps 普及的时候,也不是云原生铺开的时候——是大模型让”能源换高阶智能”成为可能的时候。在此之前所有的”软件工程”,严格说都是软件作坊的优化版。

2.2 但这只是入场券,不是终局

大模型本身带着一堆高阶的不确定性。幻觉——输出看着合理,悄悄就错了;漂移——同样的输入,今天和明天给出不一样的结果;不可解释——你没法看进它的决策过程。

这意味着大模型并没有消除不确定性,只是把”人的不确定性”换成了”模型的不确定性”。如果只看到 AI 用能源产出认知能力,却不管控这一层新的不确定性来源,软件工程的下一个时代就会从”人的危机”直接转成”模型危机”。

所以光有认知引擎不够。真正需要的是一整套新的工程原则——人的责任不再是亲手消除每个微小的偏差,而是设计一个能自我纠偏的系统,并处理系统自己纠不回来的剩余偏差

这件事在控制论里有个对应概念。冯·福斯特在 1970 年代提出过二阶控制论,简单说一阶控制论是”观察并控制被控对象”,二阶控制论是”观察并控制’观察并控制’这件事本身”。投到 AI 软件工程上:

AI"AI 写代码的系统"

这是身份的转变,不只是工具的转变。如果未来真有一本叫”AI 软件工程”的教科书,第一章应该写的就是这件事——它本质上是二阶控制论第一次大规模在认知工程领域工业化。


三、人在自动化时代不会消失,只会换地方

3.1 一个反直觉但反复被验证的现象

工程史上有个现象,我每次想起来都觉得意味深长:自动化越彻底,工业相关人口反而越多

时代

主导工程范式

直接生产工人

工业相关人口(含设计/研发/运维/调优)

1850 年代蒸汽机普及

机械化

占比约 30%

制造业整体爆炸式增长

1950 年代流水线加 PLC

自动化

持续下降

工程师、设计师、工艺员暴增

2000 年代工业机器人

数字化

进一步减少

自动化工程师、产线运维成新岗位

现在

智能化

仍在减少

仍在增加

一百五十年了,”自动化吃掉一类岗位、又冒出更多新岗位”这件事从来没失效过。

3.2 为什么会这样

经济学课本会告诉你这是”需求扩张”。但更深的解释,我觉得是这个:每一次系统能力扩张,都会暴露出新的边界,而边界就是新的”偏差地带”,需要新一波人去守在那里

第一波工程化把肌肉劳动固化进系统,人退到机械边界监督位;第二波把低阶决策固化进系统,人退到控制边界监督位;现在第三波把高阶认知固化进系统,人会退到认知边界监督位。

每一次”退守”都不是失业,而是迁移。因为边界本身在扩大,所以需要守的人反而更多了

3.3 人的统一职能其实只有一个:偏差拉回

把这条铁律抽象出来,会得到一个我觉得相当稳定的结论:在所有工程门类里,人类的统一职能是处理系统暂时还无法处理的偏差

工程门类

系统主体

人在做什么

机械、化工

物理回路

拉回物理偏差(设备故障、原料波动)

电力

电网调度

拉回负载偏差(突发用电、机组故障)

航空航天

自动驾驶

拉回飞控边缘场景

核电

反应堆

拉回安全边界偏差

AI 软件工程

认知回路

拉回 AI 自己纠不回的认知偏差

工程化的进程,本质上就是把人从主回路移到边界监督位的过程。人始终守在系统能力的边界外侧,专门处理系统暂时还没办法处理的偏差。

再往上抽一层,可以总结成一条规律:工程化扩张的本质是把”原本无法工程化的事”持续变成”可工程化的事”,人永远站在工程化边界的外侧,边界往外推,人也跟着往外迁移。这给了 AI 时代一个相对乐观的工程哲学——人不会被淘汰,因为新的”不可形式化边界”会一直冒出来。

但这个乐观底下藏着一个挺严峻的事实:能在这种边界上工作的人会越来越少,因为形式化吃掉的都是低阶认知,剩下的都是越来越高阶的部分。

3.4 AI 工程的偏差拉回是一次本质升级

经典工程的偏差拉回有几个隐含前提:偏差类型是可枚举的(机械故障的种类有限)、偏差信号是可观测的(仪表会报警)、拉回手段是 SOP 化的(按操作规程办)。

到了 AI 工程,这三条几乎全都不成立。

维度

经典工程偏差

AI 工程偏差

类型

可枚举

不可枚举(幻觉、漂移、长尾、对抗)

信号

可观测

隐蔽(输出看起来合理但悄悄错了)

手段

SOP 化

需要专家级判断

时间窗口

拉回前可降级运行

错误已经扩散到下游产物

这意味着 AI 工程里的”偏差拉回者”,专业门槛远高于传统运维岗。你需要一个人同时具备业务理解、AI 能力评估、形式化验证、反例构造这几样东西。这种人本来就稀少,未来只会更稀少。

3.5 软件研发人力会怎么流动

按上面这条铁律,软件直接生产人力会大幅减少,但研发相关总人口未必。释放出来的人会流向四个方向:

  • 真正高价值的产品定义岗:用户洞察 + 商业判断 + 跨域整合,这一类极度稀缺,少数人能进入。

  • 被稀释的伪定义岗:AI 让人人都能写需求,定义价值这件事的门槛被拉低,多数人会落在这里,竞争反而更激烈。

  • AI 产线建设、维护、调优岗:这是真正的新增主力岗位,也是这一波最关键的新主线,但门槛很高。

  • 被工程化彻底淘汰、外溢到其他行业的人:这一部分被讨论得很少,但必然存在。

这里有个细节值得提醒一下:软件世界的”产品定义”扩张不像实体产品那样指数级增长。一旦 AI 能以极低边际成本生成软件,软件供给曲线变得几乎水平,单个软件的”被定义价值”会被快速稀释。所以”流向产品定义岗”这件事不是均匀扩散,而是高度集中化——真正能定义”哪些软件值得被定义”的人,会非常少。


四、AI 真正的价值,是把人的注意力还给人

4.1 主流叙事浅了一层

业界讨论 AI 价值的时候,主流叙事是”AI 让人做事更快”。这个说法当然没错,但它停在一个比较浅的层面。

如果换一个角度——人作为碳基智能体,算力本来就是有限的,注意力是稀缺资源——那 AI 真正的价值就不是”加速生产”,而是把人的注意力从一堆琐碎事务里释放出来,让它能集中到只有人能做的事上

这两个视角看着差不多,但长期会分化成完全不同的产业组织形态。

视角

AI 在做什么

人变成了什么

效率视角

让人做事更快

在大量琐碎事务里继续打转,只是更快

注意力视角

让人不需要再做那些事

退守到最稀缺的判断位上,做更少但更关键的事

效率视角下你会鼓励人多用 AI,做更多事;注意力视角下你会鼓励人多用 AI,把更多事从自己手里挪走

4.2 这正好和”人是偏差拉回者”对上了

注意力视角下 AI 的目的就清楚了:不是替代人,是让人能集中算力做只有人能做的事——也就是边界守卫、价值定义、偏差仲裁。

也就是说 AI 为中心这件事的真正动机,不是”让 AI 多做”,而是”让人能少做但做对“。这一句话能把后面所有路线推演的终极目的说明白。


五、为什么”人为中心 + AI 辅助”是弯路

5.1 当下业界主流模式

现在业界主流的 AI 工程模式,不管叫 Copilot、Cursor、Cline,本质上都是”人为中心 + AI 辅助”——人依然是流程主体,AI 只是局部加速器

这种模式听起来稳健,做起来也容易上手,老板也愿意为它付费,员工也不抵触。但它在范式层面是错的。

5.2 它没有消除不确定性,它在循环放大不确定性

在 Copilot 模式下,AI 的训练数据是人写的代码,它学到的是人类程序员的模式、风格,包括各种典型错误。它没有自己独立的、可验证的、确定性的”质量函数”——它只是在概率上模仿”看起来像对的代码”。

这件事的麻烦在于:

AIAIAI="统计平均"reviewAIreviewAI

人成了唯一的偏差拉回者,但这个角色本身就是旧软件工程失败的根本原因——人脑覆盖不了状态空间。让人去校验 AI,等于让自己的影子去打自己。

这个判断也解释了一个反直觉的现象:很多团队接入 Copilot 之后,编码速度提升 20-40%,但项目级 bug 率没明显下降,review 工作量反而上升。主流解释是”AI 还不够强”,但更深的解释是:Copilot 这套模式本来就不是为消除不确定性设计的——它是用统计模仿人类工作的概率拟合器

5.3 反馈回路被人切断了

Copilot 模式还有一个更根本的缺陷:反馈回路是断的

AI 给出建议,人采纳、修改或者抛弃——这个反馈不会以结构化的方式回到 AI。改了几个字符,但”为什么改”没有信号;不同人的标准还不一样;bug 暴露出来的时候 AI 早已经忘了上下文。这导致 AI 永远停在”通用编程模型”的水平,永远学不会你团队的领域偏好、工程规范、业务约束

这件事的战略后果比技术后果更严重:在 Copilot 模式下,反馈最终积累到 AI 厂商那里,不在你团队手上。你团队做的事情是在帮 OpenAI、Anthropic 训练他们的下一代模型,但你自己的工程资产没增加。

5.4 真正应该走的双爬坡

把前面这些拼起来,可以推出一个我觉得对未来很关键的判断:AI 软件产线的良率提升,依赖”AI 能力”和”工程框架成熟度”两个变量同步爬坡,而它们之间互相加速

AI线AI/AI

这是个正反馈循环,但这个循环只有在”AI 为中心”架构下才能闭合。Copilot 架构下,反馈会被人这一环节切断,循环转不起来。

把两种模式放一起对比就更清楚了:

维度

Copilot 模式

AI 为中心模式

反馈频率

高(自动验证回路天然产生)

反馈密度

低(”接受/拒绝” 1 bit)

高(验证报告 + 偏差规则)

反馈对象

训练通用模型

沉淀本团队、本领域的专属规则库

能力爬坡的载体

AI 厂商(你不受益)

你的产线本身(你直接受益)

把这件事说得直接一点:Copilot 模式下你团队是在为 AI 厂商打工;AI 为中心模式下,你团队才能积累自己的工程资产。

5.5 历史规律也站在这边

工程史上每一次范式跃迁都遵循同一条规律:新范式的成熟,不是通过”用旧范式包装新工具”实现的,而是通过”重构整个工程流程让新工具占据中心位”实现的

跃迁

错误的过渡形态

真正的新范式

手工到机械

把蒸汽机当大号风箱用

设计专门为蒸汽机优化的工厂布局

机械到电气

用电动机直接替换蒸汽机,保持原有传动轴

每台机器独立电动机,重新设计车间

模拟到数字

用计算机模拟纸质表单

重新设计数字原生流程

单机到互联网

把单机软件搬到网页

互联网原生应用

传统软件到 AI 软件

Copilot 在 IDE 里塞 AI 建议

认知流水线重构整个开发流程

最经典的案例是 20 世纪初的电气化。福特发明流水线之前,工厂用电动机的方式是直接拿它替换蒸汽机——还是用一根传动轴带动整个车间。效率比烧煤略好,但提升有限,三成不到。福特做对的事情是给每台机器单独装电动机,并按”电力本位”重新规划生产线。这一变效率提升了几倍到十几倍。这场变革花了将近 30 年,而第一波”用电动机直接替换蒸汽机”的公司全部被淘汰了

当下的 Copilot 模式,正是 20 世纪初那种”用电动机直接替换蒸汽机”的过渡形态。它不会是终局。


六、让 AI 工程级可靠的唯一已知机制

6.1 把 AI 推到中心位之后,下一个问题马上来

好,假设接受了 AI 为中心。下一个问题立刻冒出来:怎么让一个概率性输出的 AI,变成工程级可靠的东西

大模型的根本问题就是输出的概率性——幻觉、漂移、不可形式化验证。这意味着 AI 永远没办法”自证清白”,它的内部状态没法保证输出对错。

所以唯一能让 AI 输出变得工程级可靠的办法,是外部强加一个确定性裁判。把 AI 的概率性输出,强制对接到一个有客观对错的验证系统,让 AI 每一次输出后被迫接受确定性的审判。

节点

确定性裁判

工程化机制

编码

编译器 + 单测 + 类型系统

“代码能跑且测试通过”是客观事实

契约

契约校验器

“符不符合 proto 规范”是客观事实

部署

灰度监控指标

“线上是否报错”是客观事实

设计

性能仿真器

“压测是否达标”是客观事实

一个工程节点能不能把 AI 工程化,本质上取决于那个节点上有没有一个客观的确定性裁判存在。这是把概率性认知工程化的唯一已知机制。

6.2 历史的接力棒

这恰好接上了第一章末尾那个伏笔:过去五十年软件工程的”失败”,反而给 AI 软件工程的”降临”准备好了一件最关键的武器——成熟的自动化验证基础设施

五十年的 CI/CD、单元测试、类型系统、形式化方法、契约编程,没让软件工程”工程化”,但它们留下了一整套可以拿来当确定性裁判的设施。AI 现在终于可以站在这套设施肩膀上,第一次实现真正的工程化。

这件事我每次想到都觉得有点诗意:“失败的五十年”留下的废墟,刚好是新范式的地基


 七、闭环优先,节点逐步开放

7.1 “逐节点替换”听起来稳,做起来错

从 Copilot 走向 AI 为中心,直觉上的路径是按节点逐个替换:

AI...

但这条路径在工程上是错的。问题在于,每一个 AI 节点都受限于上下游的”人化”接口。AI 节点之间没法直连,被人节点切成了孤岛——每个 AI 节点只能在”人节点夹缝中”做局部优化,没办法形成端到端的 AI 主导流程。

这其实又回到了 Copilot 模式的天花板。

7.2 应该走的是”先建小闭环,再扩边界”

我倾向的路径是这样的:不逐节点替换,先建立一条端到端封闭的”AI 全流程小回路”,再逐步把它的每个节点开放给更复杂的真实需求

具体形态可以这样想:

AIAI"AI 拉不回 → 人拉回"AIAI退

两种策略最大的差别在爬坡的单位上:

策略

爬坡单位

爬坡机制

逐节点替换

节点

每个节点局部优化,整线没人管

闭环优先 + 节点开放

回路

整线良率持续爬坡

工程上有句老话其实很贴切:激进的路径,往往是稳健的路径;稳健的路径,往往是慢的路径

7.3 不同节点的可闭环程度差很多

并不是每个节点都同样适合先动。我会用两个维度评估:形式化程度和验证可自动化程度。

节点

形式化程度

验证可自动化程度

当前可建闭环

需求分析

低(自然语言)

低(”对不对”靠人)

困难

系统设计

中(架构图、接口)

中(性能可仿真,可维护性难判)

部分可行

编码 + 测试

高(语法、类型、契约)

极高(编译 + 测试)

最适合先做

发布运维

高(监控指标)

高(自动告警 + 回滚)

适合做

这就给出了一个挺关键的结论:“AI 为中心”不是一夜之间全节点切换,而是从形式化程度最高的节点开始向外辐射

这恰好对应工业革命的真实路径:先是纺织(最容易机械化的环节),后是运输,再是通讯,最后才是管理决策。

按这个顺序展开会是这样:

"编码 + 测试"AI"生成 - 验证 - 修复"线"发布运维"AIAI"系统设计""需求分析""业务理解""人为中心 + AI 辅助"

八、落地:分治结构继承与六阶段演进

8.1 分治结构应该被继承下来

这条路径有个底层判断:AI 时代的研发组织结构,应该继承人类组织已经验证有效的”分治网络/树形结构”,而不是被 AI 重新发明

这一点为什么重要?因为它点出一个被普遍忽略的事实:“分治”不是人类组织的偶然选择,而是注意力有限的智能体处理复杂问题的必然结构

人在解决复杂问题时面临一个矛盾——知识广度和精度不能兼得。这是注意力有限的根本表现。人类的解决方案是分而治之,把问题拆成网络或树形结构,每个节点负责一部分。

只要 AI 注意力同样有限(事实上当前所有大模型的上下文窗口都是有限的),AI 组织就必须遵循同样的分治结构。这一点 AGI 出现之后也不会变,因为算力和注意力总是有限的

8.2 这把”等 AGI”的等待心态打穿了

很多团队在 AI 工程化上观望,本质上是在等”模型够强”。但如果分治结构是必然的,那这个等待就没意义了——就算未来出现 AGI,组织结构依然要分治

分治结构是 AGI 之前就要建好、AGI 之后还能继续用的工程基础设施。它不是过渡方案,是终极方案。现在不建,等 AGI 来了再建,会被已经建好分治结构的玩家代际碾压

工业革命的真实历史就是这样——福特流水线的”分工结构”在电气化、自动化、机器人化时代都被继承下来,分工的颗粒度变了,但分工本身没变。

8.3 现有研发组织结构会被怎么继承

这里要先澄清一个关键点:“继承”指的是结构骨架被继承,分治边界、协作拓扑、评审校验环节、组织接口这些保留下来;不是人的岗位被继承

所有传统软件工程角色——不管是代码生产、测试、发布、问题定位,还是方案设计、评审、跨域协调——最终都会被对应的 AI 产线全面接管,人最终都要站在产线外。差别只是先后顺序,不是有没有。这恰好和上一章”节点的差异化展开顺序”完全一致:编码 + 测试,然后发布运维,再然后系统设计,最后是需求分析。

现有组织结构

结构骨架是否被 AI 产线继承

人退到产线外的时序

说明

分治单元(产品域、业务域)

完全继承

不适用,结构本身不是岗位

边界保留,承载者从人换成智能体集群

代码生产团队

继承为”编码产线”

第一波(已经在路上)

形式化程度最高、确定性裁判最完备,最先被产线化

测试团队

继承为”测试产线”

第一波(与编码同期)

与编码产线天然耦合,自动验证基础最成熟

发布团队、SRE

继承为”发布产线”

第二波

监控、灰度、回滚已经高度自动化,剩下的是 AI 接管决策

问题定位团队

继承为”问题定位产线”

第二波

日志、链路、根因分析有结构化输入,AI 接管路径清晰

评审团队

继承为”评审智能体集群”

第三波

多模型对抗评审替代多人评审,但需要先有可形式化的评审标准

方案设计团队

继承为”方案设计智能体集群”

第三波

需要等领域本体足够形式化(管控建模、契约建模成熟)

需求分析、产品定义

继承为”需求产线”

第四波(最晚)

隐性知识最密集、确定性裁判最弱,最后被产线化

跨域协调(架构组、总监层)

继承为”分工协调总线”

第四波

元控制器,本身就是产线的产线,只能在所有子产线成熟后建成

这里有一个观察可以再强调一下:没有哪一类角色是”被特殊优待保留”的。所有团队都会在它对应的”确定性裁判”成熟时被产线化吸收,然后人退守到该产线的边界监督位。

进一步推论:“产线设计师”角色本身也终将被更高阶的产线吸收——只要某天”如何设计产线”这件事的确定性裁判被建立起来。这是这套理论的递归一致性,没有终极避风港,只有持续的边界外推。

8.4 六阶段演进路线

把单条产线(编码 + 测试)的建设细化成阶段:

170%0AI70%290%0AI90%10%370%0AI"自己不知道怎么办""概率正确""工程可靠"480%-90%0"AI 产线模块"5线线6线+7.3+线1-5线+线线线线线

8.5 阶段 2 到阶段 3 中间藏着一个质变

这条路线最锋利的设计在阶段 2 到阶段 3 中间——从”0 人工代码”到”0 人工接管”是一次质变,不是量变

很多团队会以为达到”AI 写出 90% 代码”就接近自动化了。但事实是:写出代码不等于不需要人——剩下的 review、纠错、澄清歧义这些”接管”环节才是真正的瓶颈。

阶段

对应机制

关键挑战

0 人工代码

AI 生成能力

AI 模型本身够不够强

0 人工接管

不确定性自纠 + 隐性知识蒸馏

AI 自己能不能识别”我哪里错了”

从阶段 2 到阶段 3 的跨越,根本不是模型能力升级能解决的。它必须靠三件事配合:确定性的强迫接触(前面讲过的自动验证基础设施)、场景驱动的隐性知识蒸馏(领域规则库的沉淀,第十章详细讨论)、还有一种主动反思机制——AI 主动追问”我为什么被纠正”。

8.6 阶段 5 的”分工协调总线”

阶段 5 引入了一个我觉得很关键的概念:分工协调总线,对应原有方案设计、评审团队的智能体化。

要先做一个时序辨析:阶段 5 搭建协调总线(基础设施建成),不等于 §8.3 里”跨域协调团队第四波退守产线外”(人岗位变迁)。

  • 阶段 5 :协调总线作为编排基础设施搭建起来,但此时它编排的还主要是编码、测试产线,元控制器的关键决策仍然由人(架构组、总监层)做出。

  • 第四波:当所有子产线都成熟、协调总线本身也积累了足够的”产线编排偏差案例库”,才轮到跨域协调团队作为人退守到这条总线的边界监督位。

基础设施先建好,人后退守——这恰好是工业革命的真实路径:流水线先建好,工艺工程师才从车间退到调度室。

这个总线的妙处在于:它不是技术总线(事件总线、消息总线),而是组织结构的工程化映射

维度

经典消息总线

分工协调总线

承载内容

事件、消息

任务、协作流程、评审决策

节点

服务

智能体集群(每个对应一个原团队职能)

控制

消息路由

任务分发 + 评审编排 + 偏差仲裁

元数据

消息元信息

领域知识、评审标准、历史决策

这个总线的本质是组织协作流程的代码化——从”组织架构到软件架构”的同构映射。AI 时代要建的”产线”,和当前的微服务架构、消息中间件,是完全不同的东西。它需要一个新的”组织级中间件”,业界目前没有任何公司在做这件事。

8.7 法不变,同理复制

第一条产线建好之后,方法论本身可以沉淀为可复制的工程模式,并指数加速地扩展到测试、需求、发布、问题定位等所有研发环节。

线线x线线x/2线线x/4...

这是一个指数加速过程——一旦第一条产线跑通,后续产线的建设速度会快速收敛。福特流水线建立后二十年内汽车、电器、纺织、化工全部产线化,就是这个规律——从 1 到 N 的扩张比 0 到 1 快得多。

战略含义很直接:今天投入”第一条产线”建设的团队,会获得不对称的战略优势。他们率先掌握了产线建设方法论,未来所有领域都能复用这套方法论。

8.8 分治单元的颗粒度是隐藏前提

这条路线图所有阶段都建立在一个隐含前提上——分治单元已经被合理切分。这个前提其实是最难达成的。

切错的典型方式有三种:

  • 切得太大:单元内部仍然超出 AI 注意力极限,”0 人工代码”做不到。

  • 切得太小:单元间通信成本暴涨,协调总线变成瓶颈。

  • 按技术分而不是按业务分:单元间高度耦合,没法独立演进。

那应该怎么切?工业革命给出过答案——按”端到端业务价值”切

汽车流水线不是按”螺丝、电焊、喷漆”切,而是按”前桥、底盘、车身、动力”切——每个单元都对应一个端到端的业务子价值。映射到 AI 软件产线,分治单元应该按”完整的业务能力”切,而不是按”技术模块”切。


九、四节点重构的具体形态

9.0 三种切法的统一映射

文章在不同地方用了三种粒度来切软件工程流程,先把它们的映射关系说清楚:

视角

切分维度

数量

对应章节

流程节点

按”工作内容相似性”

4 个

9.1

产线

按”独立 AI 闭环可行边界”

5 条

8.4

现有团队

按”传统组织分工”

8 类

8.3

三者不是一一对应,而是逐层细化:

线1线2线+3+线+线+4线+线SRE+线线线

几个细节解释一下:

  • “编码 + 测试”在 9.1 合并为一个节点,因为它们的确定性裁判几乎共享(编译 + 单测);但作为产线被独立部署时,可以拆为两条(生成产线 + 验证产线)。

  • “发布运维”在 9.1 是单一节点;但”问题定位”在工程上有独立的输入输出(日志、链路),可以独立产线化。

  • “分工协调总线”不是产线本身,而是产线之间的编排器,所以不出现在节点和产线列表里,但出现在 8.4 阶段 5 和 8.6。

9.1 四个节点分别会怎么变

需求分析节点

AI 为中心:智能体基于对话和资料库,直接生成结构化的需求规格说明书、用户故事地图和验收条件。

人工辅助:产品经理和用户不再”写需求”,而是审查和剪刀——发现 AI 遗漏的隐性需求、模糊的定义、不符合业务价值排序的地方,并补充修正。每一次修正都是一次强对齐信号。

系统设计节点

AI 为中心:智能体基于确认的需求,生成多种架构方案,并自我模拟评估其非功能属性(性能瓶颈、单点故障等等)。

人工辅助:架构师不画图,做仲裁和权衡——当 AI 给出两个在技术上同样可行、但在”可维护性”和”快速上市”之间有冲突的方案时,人介入,基于经验和战略做最终裁定。这是定义”什么才是更好的偏差”。

编码与测试节点(革命性最强)

AI 为中心:核心不是 AI 写代码,而是建立一个自动生成、自动验证的循环——AI 生成代码 → AI 生成测试用例 → AI 执行测试并修复 → 直至通过所有验证。这个循环甚至可以包含多个专门 AI(生成者、审查者、测试者),像流水线一样对抗协作。

人工辅助:开发者的角色进化为”AI 产线调试员”。他不再写具体功能,而是在循环外设定目标架构和不可逾越的约束;监控自动循环的健康度——测试覆盖率是否在下降,生成代码是否在关键模块出现不可解释的复杂性;当 AI 循环自己转不动或者陷入错误的局部最优时,切入注入新的知识或者直接修正关键代码块,做工艺级的偏差拉回。

发布与运维节点

AI 为中心:AI 自动进行渐进式发布、实时监控异常、根据日志自动定位故障根因并尝试回滚或热修复。

人工辅助:SRE 成为最终安全阀——处置 AI 无法理解、需要跨系统权衡的复杂故障(比如,是牺牲一部分用户体验来保证核心交易链路,还是相反)。这是定义”系统安全的最终值函数”。

9.2 分层递阶控制结构

把上面这些节点放进一个分层递阶控制结构里:

4/-AI-CEO/CTO-3-线-线AI-ChangeAdvisoryBoard2线--AI线-AI-1-Bug-

经典分层递阶控制是决策、协调、执行三层。AI 软件工程要做两处扩展:往上扩出一个哲学价值层,因为”价值函数定义”不属于决策层;协调层增加一个横切机制,专门处理跨层涌现偏差。

这里要补一个递归一致性的提醒:第 4 层”哲学价值层”也不是终极避风港。一旦”价值函数定义”这件事的确定性裁判被建立起来(比如可量化的伦理评估器、可仿真的战略沙盘),这一层同样会被产线化吸收,人会继续向更高的元层迁移。当前把它列为最高层,是因为它在可见的十到十五年时间窗内”确定性裁判最难建立”,而不是它具有”原则上不可工程化”的地位。

9.3 经典递阶控制在 AI 系统里失效的地方

经典分层递阶控制有一个隐藏前提:下层的扰动不会逆向传播到上层。但 AI 系统会破坏这个前提,原因有几个。

第一个失效是 AI 的能力会”自下而上”重塑上层目标。执行层的 AI 能力突变(比如 GPT 升级),会逼协调层重新划界。经典控制论里没有”执行单元能力突变”这种情况,但在 AI 系统里这是常态。AI 软件产线的层级边界本身是不稳定的,需要经常重新划界。

第二个失效是 AI 的偏差会”涌现”,没法预先归因到某一层。经典系统里偏差是可定位的——温度高了就是温控器问题。但 AI 系统里,一段错误代码可能是需求理解偏差(决策层),可能是智能体编排错误(协调层),可能是单个智能体输出问题(执行层),也可能是几个智能体的交互涌现。多智能体系统的偏差经常是涌现性的,不归属于任何单一层级。AI 产线工程师在做偏差归因时,会面临一种经典工程师从来没见过的复杂度。

修正方式是增加一个跨层耦合控制的横切机制:

//

横切层不是新的层级,而是专门处理跨层涌现偏差的诊断与重构机制。这一层在经典工程里不需要,但在 AI 工程里是关键岗位。

9.4 价值函数定义和偏差仲裁是两回事

需要把”价值函数定义”和”偏差仲裁”拆开,它们性质完全不同:

维度

价值函数定义

复杂权衡仲裁

时机

系统设计时

系统运行时

频次

低频,但影响深远

高频,但单次影响小

能力要求

抽象建模 + 长期判断

实时决策 + 多目标平衡

类比

工艺设计师

调度员、应急指挥

出错成本

极高(系统从根上跑偏)

中等(可纠正)

它们最终会分化为两个完全不同的岗位——AI 价值架构师在系统启动前定义”什么是好”;AI 运行时仲裁员在系统运行中处理价值冲突。价值架构师的稀缺性远高于仲裁员——前者影响整个系统的方向,后者只影响单次决策。


十、真正最难的那道坎:场景驱动的隐性知识蒸馏

10.1 这件事是整套理论里被低估最多的一关

前面所有讨论的”双爬坡””闭环优先””节点重构”——都是”建好之后怎么跑”的问题。真正最难、最被低估、也最具决定性的一道坎是:怎么把它建起来

难题

难度

原因

建立 AI 闭环

中高

需要重构流程,但有方法论参考

设计自动验证机制

软件工程五十年积累了基础设施

分层递阶控制

中高

需要新岗位,但岗位可培养

隐性知识的主动蒸馏

极高

既无成熟理论,也无成熟工具,且专家自己都不知道自己懂什么

10.2 新人和 AI Agent 在”成为独当一面”这件事上差距在哪

注意力释放论说,AI 让人能集中算力做更高价值的事。但要真正实现这一点,必须先解决一个问题:怎么让 AI 独当一面,把人的注意力提走

可以做个对照——一个新人和一个 AI Agent,在让他们成长为独当一面的过程中,到底有什么不同

维度

新人

AI Agent

被动接收能力

中等

极强(一次性吃下整个 codebase)

主动追问能力

强(会问”为什么”)

弱(被问才答)

元认知能力

强(”我哪里没懂”)

弱(不知道自己不知道)

反思归纳能力

中(写复盘、总结模式)

几乎没有(每次会话独立)

知识蒸馏能力

强(能从老员工身上”挖”知识)

几乎没有(只能基于已显化的文本)

跨场景关联

中(取决于上下文窗口)

长期记忆沉淀

强(经验内化为直觉)

极弱(默认无状态)

新人和 AI 在”接收 / 学习能力”上其实差不多,AI 在某些维度甚至更强。但在”主动蒸馏知识”这件事上,差距是数量级的

我会这么总结:AI 缺的不是智能,是”自主开采知识矿”的能力

10.3 知识不会自然流淌出来

这里有一条我觉得很重要的元规律:人的知识不会自然流淌出来,必须被具体的问题和场景驱动才会被逐步从大脑中蒸馏出来

回想人类组织搞知识管理的所有失败案例:

尝试

失败模式

Wiki / Confluence

写的人没动力,看的人找不到

知识管理系统(KM)

大量文档堆积,但用的时候搜不到

ISO 9001 流程文档

一旦写完就过时,没人维护

RAG / 知识库

喂进去的是”显性知识”,不是”被场景驱动蒸馏的知识”

所有失败的共同根因都在这一条上:没有问题驱动,专家脑子里 90% 的”经验直觉”永远不会被显化

这件事在哲学上其实不是新洞察。波兰尼 1958 年就讲过——”我们知道的比我们能说出来的多”(We know more than we can tell)。当时是哲学命题,现在变成了 AI 工程化的核心瓶颈。

10.4 这件事我会叫它”场景驱动的隐性知识蒸馏”

这是 AI 为中心范式得以成立的关键工程门槛。它的核心特征有几条:

  • 场景驱动:知识必须由具体问题、场景驱动才能涌现,孤立提问问不出来。

  • 主体二元:蒸馏的主体不能是 AI(AI 没有主动性),但也不能完全是人(人有惰性)。

  • 协作回路:必须由人和 AI 共同构成”主动追问 + 即时反馈”的协作回路。

  • 场景化存储:蒸馏出的知识必须以”场景化”格式存储,而不是”陈述性”格式。

10.5 这道坎为什么特别难

第一个难点:专家自己都不知道自己懂什么。

即使你直接问专家”请把你所有经验告诉我”,他能输出的只是冰山一角。剩下 90% 他自己都不知道自己拥有,必须等具体问题碰到了才会涌现。”知识蒸馏”在结构上比”知识采集”难一个量级——你不能”问出来”,你必须”逼出来”。

第二个难点:蒸馏需要”对的问题”,但”对的问题”本身需要知识才能问出来。

"对的问题""对的问题"AI

现实中这个死循环靠新人的主动性打破——新人会去观察、试错、被骂、归纳,慢慢摸索出对的问题。但 AI 没有主动性,它的”问题”是被人喂的,所以它永远进不了这个死循环。

第三个难点:蒸馏出的知识形态是”场景化的”,不是”陈述性的”。

专家的知识不是”什么是 X”,而是”在 Y 场景下应该怎么办”。这意味着蒸馏出来的知识必须以”场景 + 决策”的方式存储,而不是”事实 + 解释”。但当前的 RAG 系统、知识图谱、向量库全都是为陈述性知识设计的——AI 软件工程缺一个”场景化知识”的存储和检索范式。

10.6 几个可以入手的方向

按可落地性从近到远排:

方向一(近期可做):让 AI 主动问”我为什么被纠正了”。

AIAIAI"专家可能基于什么规则做了这个修改?"AI"场景规则"

这个机制的关键是把”专家被动修正”变成”AI 主动追问”,把知识蒸馏的认知负担从专家转移到 AI——专家只做判官,不再做老师。这一步在工程上完全可行,当前大模型能力够用。

方向二(中期):AI 不等专家来纠错,而是在专家工作时全程跟随观察。

reviewAI+XY30AI

类比一下就是新人入职”看老员工怎么做”再问”刚才那个为什么这样处理”。AI 从被动接受指令变成主动观察和提问。

方向三(中期):场景化的知识库格式。

要让蒸馏出的知识能被复用,存储格式必须从”陈述性”变成”场景化”:

scenario_idSCN-001context:  -   - 退>  - +decision:  - 退  - rationale:  -   -   - 2024-Q3Nexceptions:  - provenance:  - X2026-05-23#YYY 的讨论

这种格式有几个关键特性:context 让 AI 能精准匹配,rationale 让 AI 理解”为什么”从而扩展到相似场景,exceptions 让 AI 识别”什么时候这条规则不适用”,provenance 让人可以审查、追溯、维护。这是 RAG 时代的下一代知识库形态。当前没有任何主流工具支持,但这是必经的方向。

方向四(长期):AI 主动构造极端案例反向逼问专家。

AIAI"边缘场景""如果 X 发生在 Y 的同时,应该怎么办?""你说过 A 应该这样处理,但当 B 也成立时还成立吗?""我注意到规则 R1 和 R2 在 C 场景下会冲突,怎么解?"

这个方向的妙处是让 AI 的”知识盲区”反过来变成蒸馏的杠杆。AI 不知道的越多,能问出的好问题就越多,专家被逼出的隐性知识就越多。

这恰好对应工程史上的一条铁律:最深的知识,永远是被”那个不该回答的问题”逼出来的


十一、人的位置:从”人肉编译器”到”产线设计师”

11.1 过去五十年程序员的真实角色

我想用一个有点戳人的说法重新定位过去五十年程序员的角色:很大一部分软件从业者,其实是在充当”人肉编译器”——把模糊的业务需求翻译成精确的机器指令

这话有点伤人,但放下情绪冷静看:

表象

真相

程序员是”创造者”

大部分时候是翻译者

软件开发是”创作”

大部分时候是形式化编码

编程是”高阶认知工作”

大部分编码工作是”模糊语义到精确语法”的机械翻译

这就推出一个挺尴尬的结论:过去五十年软件行业的”高薪”,本质上是在为”翻译能力的稀缺”付费,而不是为”创造能力”付费

而大模型恰好就是第一个比人更便宜、更稳定的”语义翻译器”——它直接打中了软件行业薪酬结构的命门。这也解释了为什么 AI 对软件行业的冲击会比对其他白领行业更剧烈:因为软件行业的”高薪溢价”恰好建立在 AI 最擅长的能力上。

这里要补一个对照,避免和前面”过去五十年留下了 CI/CD、单测、类型系统等新范式地基”的褒义评价产生矛盾。这俩判断其实是同一枚硬币的两面:

面向

主体

评价

所做的”模糊语义到精确语法翻译”

程序员的认知劳动

是被 AI 替代的命门——薪酬溢价的真实来源被打中

过程中沉淀的工具链(编译器、测试、契约、监控)

工程基础设施

是新范式的地基——下一代的”确定性裁判”就建在它上面

换句话说:程序员个人的劳动被贬值了,但程序员群体留下的工具链反而升值了。这两个评价并存才完整,它们一起回答了”为什么过去五十年是失败的工程化,但又不是白费的五十年”这件事。

11.2 五类全新岗位

把”产线建设、维护、调优”具体化下来,会出现五类岗位:

岗位

职能

类比经典工程

AI 产线架构师

设计软件生产流程:哪些环节 AI 做、哪些人做、如何衔接

工艺工程师

认知 SOP 工程师

把领域知识沉淀为 AI 能稳定执行的流程模板

工艺标准编写员

偏差检测工程师

设计自动验证 / 反例生成 / 输出审查机制

QA、质量工程师

AI 产线调优师

持续优化提示词、知识库、模型选型,提升产线良率

产线调优师

认知边界守卫

处理 AI 拉不回的偏差

资深工艺专家

这里面最稀缺的是”认知边界守卫”。它本质是”偏差拉回”具象化后的产物,要求一个人同时具备比 AI 更深的领域知识(否则识别不出 AI 错在哪)、比普通人更强的元认知(能判断 AI 的判断是否合理)、还有形式化思维(能把模糊偏差转成可验证规则)。

11.3 终极稀缺岗位是”产线设计师”

往前推到阶段 6 之后还会进一步分化:

6线7线线线SRE线线

为什么会分化?因为维护是高频但低密度认知的工作,会被工具进一步自动化;而设计是低频但极高密度认知的工作,永远稀缺。

产线设计师的能力画像我会画成这样:

能力维度

要求

业务理解深度

极高(必须能识别业务的”自然分治边界”)

工程方法论

极高(必须懂分层递阶控制论、二阶控制论)

隐性知识蒸馏能力

极高(必须能把专家直觉变成产线规则)

跨域抽象能力

极高(必须能复用方法论到不同领域)

11.4 教育体系的滞后

如果未来软件工程师的核心岗位变成”产线架构师 / 认知流程架构师 / 跨层诊断专家 / 产线设计师”,那今天的高校课程体系完全无法培养这种人——计算机系教编程,但新岗位不需要写代码;控制论在自动化系,但他们不懂软件;系统工程在工业工程系,但他们不懂 AI。

这意味着未来十年会出现一种全新的复合型工程师,但没有任何高校在批量培养他们。这是一个挺大的人才结构性短缺。

一个推论:腾讯这种大厂有可能比高校更早完成新一代工程师的培养


十二、把这些串起来

12.1 整体逻辑骨架

把前面所有讨论压成一条主链,大致是这样:

++AI"为中心"++线+

12.2 当前的窗口期

我会说一句可能有点煽动的话:这是一个会被五年后回看才意识到价值的窗口期

认真把”AI 为中心 + 闭环优先 + 分治继承 + 隐性知识蒸馏”这一整套做透的团队,很可能会不远将来对 Copilot 玩家形成代际碾压——就像福特对手工作坊那样。


结语

过去五十年,软件工程一直在”管理人的不确定性”,但从未真正工程化过。

大模型让”用能源换取高阶智能”第一次成为可能——这才是软件工程真正降临的时刻。但降临不是自动完成的,它需要一场范式的真正变更:

  • 范式上:从”人为中心 + AI 辅助”转向”AI 为中心 + 人工辅助”。

  • 机制上:把”确定性的强迫接触”做成 AI 输出的工程化裁判。

  • 结构上:继承人类组织的分治网络,建立”分工协调总线”。

  • 路径上:闭环优先而不是节点替换,从形式化最高的”编码 + 测试”节点起步。

  • 门槛上:攻克”场景驱动的隐性知识蒸馏”这道最难的关。

  • 人的位置上:从”人肉编译器”重新定位为”产线设计师 + 偏差拉回者 + 价值定义者”。

这不是一个工具升级的问题,是一场比工业革命更深的工程哲学变革。它的真正含义是:软件工程,第一次有可能成为一门和经典工程并列的、真正意义上的工程学

而这场变革的入场券,发给那些敢于”立刻停止把 AI 当作一个更聪明的键盘,开始把它当作一个有待建设和校准的能源驱动工程系统本身”的人。


推荐阅读

如何用大模型搞垮一个团队?
Token烧了,产出在哪?AI编程时代的度量危机与突围
2024-2034,软件工程的“雪崩日”及其文明涟漪
2026 Harness Engineering启示录:聪明但不听话的AI比蠢AI更危险
茹炳晟谈Agent时代产品经理的认知跃迁
当AI编程成为“银弹”,我们可能正站在新的深渊边缘