最近1年时间里,我接触了十几家正在导入 AI 的质量团队,同时自己也给5家企业的质量管理导入了AI。制造业、金融都有。体感很一致:质量部门是组织里对 AI 最警惕的部门,也是被冲击得最厉害的地方。
一位在汽车行业做了十七年的质量 VP 对我说:“现在让我签字放行一个带 AI 的系统,我手抖。不是怕担责,是我真的不知道它在什么情况下会说什么话。”
他的焦虑有道理。传统的质量体系,从 ISO 9001 到 IATF 16949,都建立在一个默认前提上——过程受控,结果可预期。AI 把这个前提推翻了。
我试着把这一年看到的、和客户一起摸索的东西整理出来。不谈框架,谈三个正在发生的结构性变化。

一、策划:从“填表”到“画线”
十年前帮企业做 FMEA,方法论是成熟的。功能、失效模式、后果、原因、控制措施,一列列填下来。工程师抱怨填表麻烦,但心里清楚——表填完了,能想到的风险基本都覆盖了。
这套逻辑对 AI 不灵。
因为 AI 的失效模式不可枚举。同一段提示词,换个语序,换个上下文,输出就可能偏离预期。更麻烦的是,很多失效不属于技术故障。模型功能正常,但它“说了不该说的话”——过度承诺、泄露隐私、被诱导越权。
FMEA 的表格结构接不住这类问题。它没有“伦理失效”这一列,也没有“边界被绕开”的评分标准。
我的观察是:策划的重心正在从识别失效模式,转向定义行为边界。
和客户开研讨会时,我现在问的不再是“这个功能可能出什么错”,而是:
“这个 Agent 绝对不能说的三件事是什么?”
“如果用户试图诱导它,最坏能走到哪一步?”
“那一步发生之后,系统怎么兜底?”
这不是 FMEA 的升级版,是另一套思维。一个靠穷举,一个靠约束。一个追求没有遗漏,一个承认必有遗漏、但确保漏出来的东西跑不出划定的圈。
我常打一个比方:传统策划是给每扇窗装防盗网,AI 策划是给整个小区建围墙。围墙之内,还有缓冲区。
工具也在变。FMEA 表还在,但真正起作用的变成了系统提示词里的行为准则、输入输出两端的拦截规则、以及上线前的对抗性测试用例。CQO 的策划产出,从一份签字存档的 FMEA 报告,变成了一套可执行、可审计的护栏配置。
二、控制:从“看线”到“看云”
SPC 是质量人最熟悉不过的工具。控制图一拉,上控制线下控制线,点子在里头随机分布——过程受控,放心生产。
我见过太多质量经理把这一套平移到 AI 上。在监控大屏上画一条“幻觉率 ≤ 2%”的红线,觉得只要曲线不破线,质量就没问题。
这里有两个被忽略的事实。
第一,AI 的输出质量不是点估计,是概率分布。准确率 95% 的意思是,每 100 次交互,有 5 次你不知道会发生什么。这 5 次是均匀分布在各种边缘场景里,还是集中在某个特定的错误模式上?平均值告诉你前者,不告诉你后者。
第二,分布会漂。模型没变,用户问的问题变了;问题没变,输入数据的特征变了;数据没变,模型在持续使用中产生了谁都解释不清的偏移。SPC 控制线对这种缓慢漂移不敏感——等曲线撞线,问题可能已经发酵了几个月。
我现在建议客户做的,是把控制逻辑从“看线”切换成“看云”。
不看单点是否越界,看整个分布的形状是否在移动:
幻觉率的周环比不是看涨没涨过 2%,是看趋势斜率。
拒答率突然下降,要问的是护栏是不是被绕开了,而不是欣慰模型变聪明了。
错误类型开始聚类,说明某个边界正在被系统性试探,而不是偶发波动。
对应的监控工具也从控制图变成了分布对比图、PSI 稳定性指标、以及按错误类型分层下钻的仪表盘。
我和一位客户的对话能说明这个转变。他问我:“控制线设多少合适?”我说:“先别看线。你告诉我,你的业务能承受的幻觉率上限是多少?出了问题,兜底成本是多少?把这两个数定下来,控制线才有意义。”
他想了半天,说以前从没从这个角度想过。
三、改进:从“开会”到“代谢”
PDCA 是质量改进的基本功。我在咨询项目里反复推过这套方法论,有效,但有一个被长期忽略的约束条件——它依赖人的复盘速度。
一个质量问题从发生、到被发现、到被分析、到被纠正,中间隔着层层报表、周会、月会、评审会。在传统制造业,这个节奏可以接受,因为产品迭代慢、失效模式稳定。
AI 不等人。
一个线上模型每天产生几万次交互。花式翻车的过程是实时的——上午被用户发现了一个诱导绕过的方法,下午这个方法已经在社交媒体上传开了。等你排进下个月的改进计划,模型已经沿着同一个漏洞跑了上万次。
我的判断是:在 AI 场景下,质量改进必须从“项目制”变成“代谢功能”。
什么意思?项目制是:出问题、立项、分析、改进、验证、关闭。代谢功能是:系统自动感知异常、自动采集样本、自动归类、自动触发修复、自动验证。
具体步骤拆解如下:
1、发现问题(信号输入)
系统从三个渠道自动抓取“问题”:用户的直接负面反馈、客服接到的投诉、AI自身安全护栏拦截的不当输出。
这些都被统一标记为 Bad Case(不良案例/失败案例),即AI没处理好的任务。
2、诊断病因(聚类分析)
系统不是一个个处理这些散乱的Bad Case,而是用AI技术(语义相似度分析)把它们自动分组。
比如,把“抱怨送货慢的”、“投诉物流不更新的”聚成一类(物流问题);把“回答法律问题过于绝对”、“医疗建议不严谨”聚成另一类(安全性/严谨性问题)。
目标是识别出高频、共性的失效模式,知道问题出在哪里。
3、对症下药(触发微调)
当某一类问题(如“物流问题”)积累到一定数量(例如1000个相似案例),系统就自动触发一个任务。
这个任务是:用这些收集到的Bad Case数据作为“修正教材”,对原有的AI模型进行一次小范围的、针对性的训练(微调),专门强化它处理这类问题的能力。
4、安全验证(灰度发布)
新“练成”的模型不会直接替换线上所有用户使用的旧模型,那太危险了。
系统会先让5%的随机用户使用新模型,跑一周,这就是灰度测试/AB测试。
同时严密监控各项核心质量指标(如回答准确率、用户满意度等),确保新模型没有让整体表现变差(没有劣化)。
5、全面康复(自动推开)
经过一周验证,如果数据达标,系统就自动将新模型全量发布,替换掉所有旧模型。至此,这个高频问题就在很大程度上被系统自动修复了。
总结一下,您帮客户搭建的这个系统,其伟大之处在于:
它实现了 “感知-分析-决策-行动-验证”的完整自动化闭环。让AI系统能像生物一样,自动发现自身“病症”,自动生成“抗体”,并在安全可控的前提下完成“进化”,无需工程师每次都手动介入处理海量的用户反馈。这正是未来AI系统运维的核心方向。
CQO 在这个回路里的角色变了。他不再组织品管圈开会画鱼骨图。他的工作是设计这条管道的结构:哪些信号值得采?分类的阈值怎么定?微调触发条件怎么设?验证不通过的退路是什么?
打一个比方:传统改进是人工修剪枝叶,AI 改进是让树自己调整根系的生长方向。CQO 从园丁变成了土壤设计师。
四、我看到的差距
跑了一年,我观察到两类 CQO。
一类还在用老办法管 AI。FMEA 表格填得满满当当,但填的是想象出来的失效模式,和实际跑的 Bad Case 对不上。控制图画得很漂亮,但画的是历史平均值,对正在发生的分布漂移一无所知。改进计划排得很整齐,但排的速度追不上模型翻车的速度。
另一类 CQO 开始承认一个事实:三根柱子没倒,但地基从石头变成了沙土。
策划这根柱子,他们不再追求“找出所有失效”,而是追求“画出清晰的边界”。
控制这根柱子,他们不再盯着“出没出线”,而是盯着“云的形状变没变”。
改进这根柱子,他们不再靠开周会推动,而是靠系统自动回流。
两者的差距不在工具掌握上。在认知上——前者还在用确定性思维管理概率系统,后者已经接受了“在不确定中控制风险敞口”这件事。
一个做质量咨询的人,现在最重要的任务可能不是教客户填表画图,而是帮他完成这个认知切换。
柱子还在。但站上去的人,手里该换东西了。
欢迎扫二维码联系宋老师,加入万人质量专业交流群,
与群里的同学,愉快交流学习!!

为赋能质量人员,知识星球已积累研发管理、流程管理、项目管理、质量管理的干货资料4700+,内容还在更新中,欢迎加入,学习提升!

夜雨聆风