第一次拥有了能够持续进化的软件系统

封面:数字化系统建好即折旧,AI 化系统应该越跑越值钱

系列:01 数字化 vs AI化 → 02 模型无关底座 → 03 SOP 起点 → 04 关键步骤 → 05 治理 → 06 组织记忆 → 07 多 Agent → 08 自我进化(你在这里) → 09 组织重构 → 10 路线图

「企业AI化转型」系列地图——你在第 8 站:自我进化

上一篇我们把团队搭起来了——多 Agent 各管一摊,协作协议模型无关。这一篇答下一个问题:团队跑起来了——可怎么让它越跑越值钱,而不是像数字化系统那样建好就开始折旧?

TL;DR

· 数字化系统建好那天就开始折旧;AI 化系统应该相反——交付即起点,用运行数据自我优化、越跑越值钱。

· 适合 CTO / CIO / 数字化负责人评估 AI 投资回报,以及给"看起来在跑但没在变好"的 AI 应用补上自进化闭环。

· 看完你能拿到三步落地法(评估闭环 / 在模型外那层改 / 可控可回滚)+ 数字化 vs AI 化对比 + 一份"AI 写报告"系统的样板。

一句话:一个不会用真实运行数据让自己越变越好的 AI 系统,本质上和会折旧的数字化系统没区别——只是它更会说话。

什么是「会自我进化的 AI 系统」?

▸ 自我进化 = 用真实运行数据持续评估自己、自动改流程/提示/技能(模型外那层),且每一步可控可回滚。

会自我进化的 AI 系统,是一种"用真实运行数据持续评估自己、自动改进流程/提示/技能(都在模型之外那一层)、且每一步可控可回滚"的系统。 它在 AI 能力栈里的位置是把"评估"从"上线时验收一次"变成"系统每天都在做的事";改进对象是模型外那层,所以换更强模型时自优化能力还在,而且更强。

两个容易混的词:监控只是看见问题(仪表盘);自我进化是看见之后系统能自己把流程/提示/技能改好,而不是攒一堆报表等人来改。前者会折旧,后者才会增值。

为什么这件事现在重要

▸ 数字化系统建好即折旧;AI 化系统每天产生运行数据,理应反过来让自己越跑越好——这才是 AI 化 vs 数字化的根本 ROI 差异。

数字化系统有个谁都默认却很少说破的特性:建好那天起,它就开始折旧——需求变了它跟不上,流程改了要排期改造,几年后变成谁都不敢碰的"祖传系统"。AI 化系统的曲线应该是反过来的:每天产生真实运行数据,这些数据反过来自动评估并优化它自己。

但市面上多数所谓的"AI 落地",仍然在按数字化的节奏交付——上线时验收一次,然后等出问题再人工改。这本质上是把 AI 当一次性项目,不是当能升值的资产。

反直觉的判断:评估一个 AI 投资,加一条硬尺子——"它会用运行数据让自己越来越好吗?" 答"会"的才是资产;答"不会"的,无论模型多强、上线表现多炫,都只是会说话的数字化系统,几个月后开始折旧。

两条相反的价值曲线:数字化折旧 vs AI 化增值

怎么做:三步开启自我进化闭环

▸ 三步:评估是系统每天自己做的事 / 自优化在模型外那层 / 可控可回滚。

第一步:把评估做成系统每天自己在做的事

▸ 直答:每跑一遍系统就用真实结果回头看——成功率/反复出错点/耗时漂移,自动算、自动汇总、自动告警。

评估不是季度抽查、不是上线验收,是系统每跑一遍就用真实结果回头看的内建动作——成功率、反复出错点、耗时漂移,自动计算、自动汇总。

怎么落:

· 每个步骤的执行结果带"标准答案 / 客观判定 / 用户反馈"中至少一种信号

· 系统自动算每个步骤的成功率、误差率、耗时趋势——按日聚合,按周看趋势

· 异常(成功率掉了 X%、误差率升了 Y%)自动告警到 SOP Owner,不等人巡检

常见踩坑:把"评估"做成季度报表——拿到时数据已经是上季度的,改也来不及。

评估闭环:跑 → 评估 → 改流程/提示/技能 → 再跑

第二步:进化发生在模型外那层,不是去训模型

▸ 直答:闭环改的是 SOP / 提示 / 技能配置——模型外那层;换模型时自优化能力一行不重建。

闭环改的是 SOP、提示、技能配置——模型之外那层。这样有个复利效应:换一代更强的模型进来,这套"会自优化"的能力还在,而且因为模型更强,它优化得更准、更快。

怎么落:

· 自优化对象明确:工作流 spec、prompt 模板、技能配置、调度规则——这四类

· 模型本身不动(也别去 fine-tune):换基础模型时,自优化能力一行不重建

· 每次自动改动留版本号 / 改动原因 / 改前改后对比数据

常见踩坑:把"自优化"做成"自动 fine-tune 模型"——绑死当下模型,还把可解释性丢光。

进化发生在模型之外那层:换模型,自优化能力还在

第三步:自我进化必须可控、可回滚

▸ 直答:分级改动 + 灰度 + 一键回滚;让系统全量自动改自己是给自己埋坑。

系统自己改自己,听着很美,但前提是每一步可审计、可回退。不能让它在没人盯的情况下把自己悄悄改坏了还没人知道。进化的自由,必须装在治理的笼子里。

怎么落:

· 每次自动改动,变更类型分级:小改自动上线(改提示阈值)/ 中改要 Skill Reviewer 批 / 大改(改关键 SOP)必须 HITL

· 灰度发布:新改动先跑 5%–10% 流量,跟旧版本对比指标,达标再全量

· 一键回滚:任何改动有回退按钮,出问题立刻回上一版

常见踩坑:让系统全量自动改自己——出过一次事就再也没人敢信"自动进化"了;一开始就该分级 + 灰度 + 回滚。

数字化(会折旧)vs AI 化(应增值)对比表

维度	数字化系统	AI 化系统(自进化)
交付时点	即巅峰	即起点
价值曲线	向下(折旧)	向上(增值)
改进方式	排期开发 → 发版	系统自动改流程/提示/技能
改进对象	业务代码	模型外那层(SOP/prompt/skill)
改进频率	月级 / 季度级	周级 / 日级
与模型升级关系	不适用	模型升级 → 自优化更强
可控性	高(改动慢)	必须设计:分级 + 灰度 + 回滚
投入产出	一次性	持续复利

决策者 Checklist(每个 AI 应用立项前)

· [ ] 系统每跑一遍都能自动产出评估数据(成功率/误差率/耗时)

· [ ] 自优化对象明确是模型外那层(SOP/prompt/skill/调度)

· [ ] 模型本身不动,可独立升级,不重建自优化能力

· [ ] 每次自动改动有版本号、原因、改前改后数据

· [ ] 改动分级:小自动 / 中要 Skill Reviewer / 大必须 HITL

· [ ] 灰度发布 + 一键回滚的机制都已内建

· [ ] 我会用"一年后是不是比现在好"作为 ROI 评估口径,不止看上线时表现

一个具体场景:公司内部 AI 写报告系统的"悄悄变差"

▸ AI 写财报摘要/市场周报/客户回访总结,上线时光鲜——三个月后开始悄悄变差,没人知道哪环开始下滑。

Before · 三个卡点

▸ AI 报告应用上线惊艳;三个月后投诉变多;团队第一反应"换更贵的模型"。

· 公司上线了一个"AI 写报告"应用(财报摘要 / 市场周报 / 客户回访总结)——上线时效果惊艳,业务部门很满意;

· 但三个月后开始有投诉——某些报告"结论不对、引用不全、格式飘"——产品负责人也不知道哪环开始下滑;

· 内部讨论是"模型不够强吧 / 换个更贵的模型试试" → 换完成本翻倍效果只略好,而且 prompt 全部要重调。

落地这套打法 · 三件事

▸ 加双信号评估 + 模型外那层自动改 + 改动分级 + 灰度。

· 给每种报告类型加上"客观规则校验 + 业务方反馈"双信号,系统每天自动算成功率;按日按周看趋势,异常自动报到产品负责人 + SOP Owner;

· 自优化对象明确为模型外那层——发现某类报告引用不全 → 系统自动改对应的工作流分支或 prompt 模板(不动模型);Skill Reviewer 周度审查改动批量;

· 改动分级:微调阈值/措辞 = 灰度自动上线;改逻辑分支 = Reviewer 批;改"评估口径"本身 = 必须 HITL + 留版本号。

After · 三个变化

▸ 三个月自动修复 N 处局部退化;升级模型时已沉淀的自优化历史不重建;立项口径从"换更贵模型"变成"自优化曲线还在不在涨"。

· 三个月运营下来,系统自己识别并修复了 40+ 处局部退化;产品负责人每周只需看几条"非常规改动"的审批清单;

· 换基础模型时,自优化历史(已沉淀的 SOP/prompt/skill 改动)一行不重建,新模型上来立刻吃到这些累积优化的红利;

· 内部对"AI 投资该不该追加"的讨论,从"模型选型 vs 不选"换成了"自优化曲线还在不在涨";口径变了,决策快了。

两个关键决策点:

1. 自优化范围放多大? 保守:只让它改提示词阈值;激进:让它改整条工作流分支。我建议按"出错代价"分级——低代价区(提示阈值、措辞)自动改 + 灰度;中代价区(分支逻辑)Reviewer 批;高代价区(评估口径、关键 SOP)必须 HITL——这条线和治理那篇是一脉相承的。

2. 评估信号怎么拿? 有客观规则最理想(财报摘要类:数字对得上对不上);没客观规则的(开放生成类)用"用户反馈 + LLM-as-judge 双信号叉验",单一信号容易被操纵或漂移。

我在 aurakl 里怎么做的

▸ 评估闭环 / 自优化引擎 / 改动治理三件事内建,自优化对象限定在模型外那一层。

我把"用运行数据自我进化"做成系统里一层独立的能力——评估闭环、自优化引擎、改动治理三件事内建。自优化对象限定在模型外那一层(工作流 / 提示 / 技能),模型自身不动。设计动机就是那条最高判据——模型升一代,这套自优化能力不重建,而且因为模型更强,自己改得更准更快。

不只是加监控,是把"自动改自己"做成内建闭环

▸ 加监控只让你看见问题;内建闭环让系统自己把流程/提示/技能改好,前者是折旧的仪表盘,后者才是增值的系统。

用模型给输出打分(LLM-as-judge)、反馈闭环、持续改进 / CI——这些机制本身不新。关键差别在:不是"能不能加监控和反馈",是"把'用运行数据自动改自己'做成系统内建的闭环,而且改的是模型外那一层,可控可回滚"。加监控只是看见问题;真正的差别是看见之后,系统能不能自己把流程/提示/技能改好,而不是攒一堆报表等人来改。前者是会折旧的仪表盘,后者才是会增值的系统。

常见问答(FAQ)

▸ 决策者最常问的六个问题。

Q1:这跟普通的"持续优化"有什么不同? 持续优化是"人定期改",自我进化是"系统按规则自动改 + 人审 / 兜底"。后者改动频率高一两个数量级,而且只要治理设计对了,质量不下降。

Q2:让系统自动改自己,风险不大吗? 风险来自"不分级一刀切让它改"。分级 + 灰度 + 回滚装进去之后,自动改的实际风险比"季度批量人工大改"还低——因为每次改得小、灰度看得准、出问题立刻退。

Q3:这跟"在线学习/模型自训练"是一回事吗? 不是。在线学习/自训练是改模型本身——绑死当前模型,可解释性差,也很难回滚。本文讲的"自进化"明确不动模型,只改模型外那层(SOP/提示/技能),好处是可控、可换模型、可回滚。

Q4:自动改的"改动来源"是什么? 三个来源:运行数据上的异常告警(掉成功率/升误差率)、用户反馈聚类(同类投诉)、Skill Reviewer 周度复盘(主动发现)。三路汇总后,系统按规则提出"建议改动",分级走治理流程。

Q5:小公司也要做这一套吗? 看 AI 是不是核心。如果 AI 只是边缘工具,人工偶尔改一下够用;一旦 AI 跑核心流程,自进化闭环就必须做,否则三个月后开始悄悄折旧,你还不知道。

Q6:怎么衡量这套"在变好"? 看三个指标:自动改动次数 / 周(过低说明闭环没跑起来)、改动通过率(自动改动经治理审核被回滚的比例,过高说明分级或灰度有问题)、核心业务指标月度趋势(成功率、客户满意度、转化等——这是终极判据)。

数字化系统交付即巅峰,之后一路折旧;AI 化系统应该交付即起点,越跑越值钱。差别就在于它会不会用真实运行数据自我评估、自我优化——而且改的是模型之外那层,可控可回滚。这把 AI 化的"价值曲线"扳到了向上——可技术上的"会进化"还不够,你公司里得有人对它负责:谁定 SOP、谁审技能、谁兜底、谁治理。下一篇我们答这件事:为什么 AI 化真正难的不是技术,是组织能力重构。

我在用 Rust 从零做 aurakl,把"用运行数据自我进化"当核心闭环来设计,这类取舍会持续写。你们现在的 AI 系统,价值曲线是在往上走,还是已经开始折旧了?欢迎在简介里找到社区聊聊。

Jaxon · 从零做 aurakl(Rust 自我进化框架);写企业从数字化走到 AI 化的设计取舍。