质量咨询的手记:AI 时代 CQO(首席质量官) 的三大支柱,究竟还剩什么

最近1年时间里，我接触了十几家正在导入 AI 的质量团队，同时自己也给5家企业的质量管理导入了AI。制造业、金融都有。体感很一致：质量部门是组织里对 AI 最警惕的部门，也是被冲击得最厉害的地方。

一位在汽车行业做了十七年的质量 VP 对我说：“现在让我签字放行一个带 AI 的系统，我手抖。不是怕担责，是我真的不知道它在什么情况下会说什么话。”

他的焦虑有道理。传统的质量体系，从 ISO 9001 到 IATF 16949，都建立在一个默认前提上——过程受控，结果可预期。AI 把这个前提推翻了。

我试着把这一年看到的、和客户一起摸索的东西整理出来。不谈框架，谈三个正在发生的结构性变化。

一、策划：从“填表”到“画线”

十年前帮企业做 FMEA，方法论是成熟的。功能、失效模式、后果、原因、控制措施，一列列填下来。工程师抱怨填表麻烦，但心里清楚——表填完了，能想到的风险基本都覆盖了。

这套逻辑对 AI 不灵。

因为 AI 的失效模式不可枚举。同一段提示词，换个语序，换个上下文，输出就可能偏离预期。更麻烦的是，很多失效不属于技术故障。模型功能正常，但它“说了不该说的话”——过度承诺、泄露隐私、被诱导越权。

FMEA 的表格结构接不住这类问题。它没有“伦理失效”这一列，也没有“边界被绕开”的评分标准。

我的观察是：策划的重心正在从识别失效模式，转向定义行为边界。

和客户开研讨会时，我现在问的不再是“这个功能可能出什么错”，而是：

“这个 Agent 绝对不能说的三件事是什么？”
“如果用户试图诱导它，最坏能走到哪一步？”
“那一步发生之后，系统怎么兜底？”

这不是 FMEA 的升级版，是另一套思维。一个靠穷举，一个靠约束。一个追求没有遗漏，一个承认必有遗漏、但确保漏出来的东西跑不出划定的圈。

我常打一个比方：传统策划是给每扇窗装防盗网，AI 策划是给整个小区建围墙。围墙之内，还有缓冲区。

工具也在变。FMEA 表还在，但真正起作用的变成了系统提示词里的行为准则、输入输出两端的拦截规则、以及上线前的对抗性测试用例。CQO 的策划产出，从一份签字存档的 FMEA 报告，变成了一套可执行、可审计的护栏配置。

二、控制：从“看线”到“看云”

SPC 是质量人最熟悉不过的工具。控制图一拉，上控制线下控制线，点子在里头随机分布——过程受控，放心生产。

我见过太多质量经理把这一套平移到 AI 上。在监控大屏上画一条“幻觉率 ≤ 2%”的红线，觉得只要曲线不破线，质量就没问题。

这里有两个被忽略的事实。

第一，AI 的输出质量不是点估计，是概率分布。准确率 95% 的意思是，每 100 次交互，有 5 次你不知道会发生什么。这 5 次是均匀分布在各种边缘场景里，还是集中在某个特定的错误模式上？平均值告诉你前者，不告诉你后者。

第二，分布会漂。模型没变，用户问的问题变了；问题没变，输入数据的特征变了；数据没变，模型在持续使用中产生了谁都解释不清的偏移。SPC 控制线对这种缓慢漂移不敏感——等曲线撞线，问题可能已经发酵了几个月。

我现在建议客户做的，是把控制逻辑从“看线”切换成“看云”。

不看单点是否越界，看整个分布的形状是否在移动：

幻觉率的周环比不是看涨没涨过 2%，是看趋势斜率。
拒答率突然下降，要问的是护栏是不是被绕开了，而不是欣慰模型变聪明了。
错误类型开始聚类，说明某个边界正在被系统性试探，而不是偶发波动。

对应的监控工具也从控制图变成了分布对比图、PSI 稳定性指标、以及按错误类型分层下钻的仪表盘。

我和一位客户的对话能说明这个转变。他问我：“控制线设多少合适？”我说：“先别看线。你告诉我，你的业务能承受的幻觉率上限是多少？出了问题，兜底成本是多少？把这两个数定下来，控制线才有意义。”

他想了半天，说以前从没从这个角度想过。

三、改进：从“开会”到“代谢”

PDCA 是质量改进的基本功。我在咨询项目里反复推过这套方法论，有效，但有一个被长期忽略的约束条件——它依赖人的复盘速度。

一个质量问题从发生、到被发现、到被分析、到被纠正，中间隔着层层报表、周会、月会、评审会。在传统制造业，这个节奏可以接受，因为产品迭代慢、失效模式稳定。

AI 不等人。

一个线上模型每天产生几万次交互。花式翻车的过程是实时的——上午被用户发现了一个诱导绕过的方法，下午这个方法已经在社交媒体上传开了。等你排进下个月的改进计划，模型已经沿着同一个漏洞跑了上万次。

我的判断是：在 AI 场景下，质量改进必须从“项目制”变成“代谢功能”。

什么意思？项目制是：出问题、立项、分析、改进、验证、关闭。代谢功能是：系统自动感知异常、自动采集样本、自动归类、自动触发修复、自动验证。

具体步骤拆解如下：

1、发现问题（信号输入）

系统从三个渠道自动抓取“问题”：用户的直接负面反馈、客服接到的投诉、AI自身安全护栏拦截的不当输出。

这些都被统一标记为 Bad Case（不良案例/失败案例），即AI没处理好的任务。

2、诊断病因（聚类分析）

系统不是一个个处理这些散乱的Bad Case，而是用AI技术（语义相似度分析）把它们自动分组。

比如，把“抱怨送货慢的”、“投诉物流不更新的”聚成一类（物流问题）；把“回答法律问题过于绝对”、“医疗建议不严谨”聚成另一类（安全性/严谨性问题）。

目标是识别出高频、共性的失效模式，知道问题出在哪里。

3、对症下药（触发微调）

当某一类问题（如“物流问题”）积累到一定数量（例如1000个相似案例），系统就自动触发一个任务。

这个任务是：用这些收集到的Bad Case数据作为“修正教材”，对原有的AI模型进行一次小范围的、针对性的训练（微调），专门强化它处理这类问题的能力。

4、安全验证（灰度发布）

新“练成”的模型不会直接替换线上所有用户使用的旧模型，那太危险了。

系统会先让5%的随机用户使用新模型，跑一周，这就是灰度测试/AB测试。

同时严密监控各项核心质量指标（如回答准确率、用户满意度等），确保新模型没有让整体表现变差（没有劣化）。

5、全面康复（自动推开）

经过一周验证，如果数据达标，系统就自动将新模型全量发布，替换掉所有旧模型。至此，这个高频问题就在很大程度上被系统自动修复了。

总结一下，您帮客户搭建的这个系统，其伟大之处在于：

它实现了 “感知-分析-决策-行动-验证”的完整自动化闭环。让AI系统能像生物一样，自动发现自身“病症”，自动生成“抗体”，并在安全可控的前提下完成“进化”，无需工程师每次都手动介入处理海量的用户反馈。这正是未来AI系统运维的核心方向。

CQO 在这个回路里的角色变了。他不再组织品管圈开会画鱼骨图。他的工作是设计这条管道的结构：哪些信号值得采？分类的阈值怎么定？微调触发条件怎么设？验证不通过的退路是什么？

打一个比方：传统改进是人工修剪枝叶，AI 改进是让树自己调整根系的生长方向。CQO 从园丁变成了土壤设计师。

四、我看到的差距

跑了一年，我观察到两类 CQO。

一类还在用老办法管 AI。FMEA 表格填得满满当当，但填的是想象出来的失效模式，和实际跑的 Bad Case 对不上。控制图画得很漂亮，但画的是历史平均值，对正在发生的分布漂移一无所知。改进计划排得很整齐，但排的速度追不上模型翻车的速度。

另一类 CQO 开始承认一个事实：三根柱子没倒，但地基从石头变成了沙土。

策划这根柱子，他们不再追求“找出所有失效”，而是追求“画出清晰的边界”。

控制这根柱子，他们不再盯着“出没出线”，而是盯着“云的形状变没变”。

改进这根柱子，他们不再靠开周会推动，而是靠系统自动回流。

两者的差距不在工具掌握上。在认知上——前者还在用确定性思维管理概率系统，后者已经接受了“在不确定中控制风险敞口”这件事。

一个做质量咨询的人，现在最重要的任务可能不是教客户填表画图，而是帮他完成这个认知切换。

柱子还在。但站上去的人，手里该换东西了。

- END -

你的点赞是我持续创作的动力！

欢迎扫二维码联系宋老师，加入万人质量专业交流群，

与群里的同学，愉快交流学习！！

为赋能质量人员，知识星球已积累研发管理、流程管理、项目管理、质量管理的干货资料4700+，内容还在更新中，欢迎加入，学习提升！