在上一篇文章《军工“体检”黑科技:一文吃透 FMECA,让装备故障无处遁形》里,我们结合GJB/Z1391-2006,以某型机载通信接收机为实例,完整拆解了硬件 / 功能 FMECA 的全流程,从标准溯源、层次划分,到故障分析、危害性矩阵、整改落地,一步步讲清了这套军工 “故障体检” 工具的实操逻辑。
有些读者后台提问:现代军工装备高度依赖嵌入式软件,硬件要做 FMECA,软件是否需要?软件 FMECA和功能/硬件FMECA有哪些区别?软件针对哪些潜在故障进行改进?今天延续上文内容,严格依据GJB/Z1391-2006标准条文,深度解析嵌入式软件 FMECA(SFMECA),对比软硬件 FMECA 的异同、详解软件评级规则、明确 SRPN 风险接受准则与工程落地要求,兼顾标准原文与实战经验,帮大家把整套 FMECA 体系学完整。
在军工装备领域,硬件故障多源于磨损、老化、物理损伤、元器件失效,故障表象直观,也容易通过常规检测发现。但嵌入式软件故障完全不同,它不存在 “磨损老化”问题,隐患大多藏在需求疏漏、逻辑错误、编码缺陷、接口不匹配、时序异常等隐性问题中。这些缺陷在常规联调、测试阶段可能不会触发,可一旦装备执行任务、进入复杂工况,微小的软件漏洞就会引发指令错误、功能瘫痪,甚至威胁人员与装备安全。也正因如此,GJB/Z1391-2006 专门增设嵌入式软件 FMECA独立章节,将其与功能FMECA、硬件FMECA、过程FMECA并列,成为军工产品可靠性、安全性分析的强制性工作。尤其在航空、航天、兵器、舰船等高端装备中,软件早已成为核心控制中枢,软件 FMECA 更是型号研制、试验定型阶段必不可少的环节。
结合 GJB/Z1391-2006规定,两类 FMECA底层逻辑一脉相承,但因软硬件的本质属性差异,在实施时机、分析内容、评级规则上存在明显区别,下面分相同点和不同点逐一说明。(一)核心相同点1、整体分析逻辑与流程一致
功能/硬件FMECA完整流程:系统分析→故障模式分析→故障原因分析→故障影响及严酷度分析→故障检测方法分析→危害性分析(CA)→设计改进 + 使用补偿措施→编制报告。软件 FMECA 流程:系统分析→故障模式分析→故障原因分析→故障影响及严酷度分析→危害性分析(CA)→设计改进措施→编制报告。表面看软件FMECA少了两个环节,实则是标准做了整合:故障检测方法分析被纳入软件危害性的评级维度,使用补偿措施统一合并到设计改进方案中,整体分析逻辑、迭代思路完全和硬件 FMECA 保持统一。2、故障影响推导规则完全一致
两类分析均采用自下而上的分层推理模式,这也是 GJB/Z1391 统一要求的核心规则。从最低约定层次(硬件为零部件、软件为独立单元)出发,依次分析故障对本级(局部影响)、上一级单元(高一层次影响)、顶层装备系统(最终影响)的作用。判定严酷度、风险等级时,一律以对初始约定层次(顶层系统)的最终影响为依据,该规则软硬件通用。(二)关键不同点
这也是实操中最容易混淆的部分,结合标准条款逐一区分:1、实施时机不同
功能 FMECA在论证与方案阶段、工程研制阶段的早期进行,硬件FMECA在工程研制阶段(含状态鉴定)进行。而 GJB/Z1391明确要求:软件 FMECA优先在软件开发早期启动,也就是需求分析、概要设计阶段。这个阶段软件架构尚未固化,整改成本最低;若等到编码、集成完成后再排查缺陷,修改代码、调整架构的工作量会成倍增加,风险也会大幅提升。2、系统分析内容不同
功能FMECA重点聚焦产品的功能特性,硬件FMECA重点聚焦产品的物理结构;而软件FMECA则必须绘制软件功能流程图,梳理各软件单元、部件之间的逻辑关系、数据流向、接口与时序,核心关注软件运行逻辑,而非物理实体。3、故障模式与故障原因分类不同
硬件故障多为物理失效,比如断裂、短路、断路、变形、磨损等;而GJB/Z1391针对软件特性,划分了两大类共41种典型软件故障模式,包含输入异常、输出错误、程序死循环、运行超时、接口故障、逻辑错误等;同时梳理出6 大类 22 小项软件缺陷原因,涵盖需求缺陷、功能缺陷、数据错误、编码问题、软硬件接口异常等,和硬件故障原因有着本质区别。4、严酷度评级体系不同
功能/硬件FMECA 采用四级定性评级(Ⅰ 类灾难、Ⅱ 类致命、Ⅲ 类中等、Ⅳ 类轻度),划分粗犷,适合物理故障的等级判定;软件 FMECA 参考FMEA的方法,改用10 级半定量评分制(1~10 分),分值越高,故障后果越严重,分级更精细,能够匹配软件故障影响梯度多、隐性风险强的特点。
软件危害性分析采用软件风险优先数 SRPN作为核心量化指标,计算公式:SRPN=SESR(软件故障模式严酷度等级)×SOPR(软件故障模式的发生概率等级)×SDDR(软件故障模式的被检测难度等级)其中三个参数取值均为1~10 分,因此 SRPN取值范围为 1~1000,数值越大,综合风险越高,整改优先级越高。下面结合标准表格,逐一解读三个评分项。1. 软件故障严酷度等级(SESR)
代表软件故障造成后果的严重程度,是第一优先级判定指标,标准分级如下:

其中,9分~10 分对应硬件 Ⅰ 类,灾难级);7分~8分对应硬件 Ⅱ 类,致命级;重点规则:SESR=9、10 分属于安全红线,无论其他指标高低,都属于必改项。2. 软件故障发生概率等级(SOPR)
代表故障出现的可能性,结合故障概率区间划分 1~10 分:
3. 软件故障被检测难度等级(SDDR)
代表故障被识别、定位的难易程度,分值越高越难排查:
这是软件 FMECA 落地的重中之重,也是很多工程师的困惑点:SRPN 达到多少必须改进?多少可以暂缓?我们分标准原文和工程最优实践两部分说明。1. GJB/Z1391-2006 官方规定
标准没有制定全国统一、强制的 SRPN 数值阈值,仅给出原则性要求:利用 SRPN 对所有软件故障模式进行风险排序,优先整改高风险项;持续采取改进措施,直至 SR 下降到产品可接受的最低风险水平;各型号需在《FMECA专项计划》中,结合装备类型、安全等级、任务要求、使用场景,自行定义 SRPN 阈值,并经研制方、订购方联合评审确认。简单来说:国军标提供方法框架,具体风险阈值由项目双方结合实际确定。2. 军工行业最优实践确定的工程准则
结合航空、航天、兵器等领域大量软件FMECA最优实践,目前行业形成的可供参考的执行标准,以及叠加严酷度例外原则(优先级高于数值),分为三个风险区间:1)不可接受风险:必须立即采取改进措施:分为两类,满足其一就需紧急改进:a) 数值门槛:SRPN≥100,综合风险偏高,无论故障类型,第一时间制定整改方案、完成验证;高安全等级装备(载人、火控、制导系统)可收紧至SRPN≥80。b) 严酷度红线(最高优先级):SESR≥9(危及人员、装备安全的故障)。哪怕 SRPN 数值很低,也必须无条件整改。这是军工装备的安全底线,不存在 “低风险安全故障”。2) 可接受风险:暂不改进,持续监控。满足条件:SRPN<70且 SESR≤6。此类故障不涉及系统安全、不影响核心任务,仅为体验类、轻微干扰类问题。无需紧急整改,可建立故障台账,在软件版本迭代、升级维护时统一优化,使用阶段定期跟踪故障发生频次即可。3)中风险区间:70 ≤ SRPN < 100.属于灰色区间,不能放任不管,也无需紧急停工整改。要求组织专项评审:若故障出现在非核心功能、常规工况下,可列为长期待优化项;若故障可能在极限环境、复杂任务中放大风险,则酌情提前开展设计优化。3. 补充实战案例
参考GJB/Z1391附录C中的通信软件案例:共确定了11个故障模式,SRPN均大于100。设计人员均采取了改进措施。
1、严禁重计算、轻分析
SRPN只是半量化排序工具,最终目的是定位软件缺陷根源(需求、逻辑、编码、接口等)。不能只盯着数字打分,忽略故障溯源,这违背 FMECA 的核心初衷。2、软件变更必须同步更新 FMECA
软件每一次版本迭代、功能修改、接口调整、参数优化,都要重新开展局部 FMECA,重算 SRPN。软件风险状态会随代码、逻辑变化而改变,分析文件必须保持动态更新。3、严守严酷度优先原则
任何时候,SESR=9/10 的安全类故障,优先级都高于单纯高 SRPN 的普通故障,这是 GJB/Z1391 隐含的强制性要求。4、文件留痕,规范归档
所有 SRPN 阈值定义、评级依据、整改措施、评审记录,都要纳入 FMECA 正式报告,作为装备设计、定型、验收、售后保障的正式技术文件。今天就侃到这里,码字不易,恳请关注、点赞、转发支持!若您需要深入学习,可添加微信 xp510168950,联系我的《新版FMEA技术及FMECA技术的理论与实践》课程,一起深耕军工质量技术!
【前期相关原创侃文衔接】
QMS 换版神器:三位一体顶层策划 = 1 图 + 2 表(送模板)
质量难题屡禁不止?你缺的不是“救火”本事,而是这套系统的“破案”神器
比8D多了一个“S”,究竟强在哪里?揭秘国际航空航天业的“纠错圣经”
一块玻璃差点要了128人的性命:空客如何用9S法堵住致命漏洞?
军工“体检”黑科技:一文吃透 FMECA,让装备故障无处遁形
【下期原创侃文预告】
81项指导性文件到底讲了啥?一套表带你理清装备试验鉴定的规矩

夜雨聆风