
一、核心指标与概念
1.失效概率 F(t)
定义:系统在时间 t 内发生至少一次故障的概率。 特性: 单调递增,随着时间趋近无穷大而趋向 1。 是可靠度的补集:
F(t)=1−R(t)
2.可靠度 R(t)
定义:系统在时间 tt 内持续无故障运行的概率。 数学关系:
R(t)=1−F(t)
物理含义:数值越大,表示系统在该时间段内"不出问题"的概率越高。
3.失效强度(故障率) λ(t)
定义:单位时间内发生失效的速率。 常见形式: 恒定故障率:适用于软件稳定期。 变化故障率:常见于软件迭代早期(发现缺陷较多)。 关系式:
若失效服从指数分布:

4.平均失效前时间 (MTTF)
定义:系统从开始运行到第一次失效的期望时间。 公式: 适用场景:一次性任务、不可修复系统。

5.平均恢复前时间 (MTTR)
定义:故障发生后,从检测、诊断、修复到恢复运行所需的平均时间。 组成部分: 故障检测时间 故障定位时间 修复/替换时间 验证与恢复上线时间
6.平均故障间隔时间 (MTBF)
定义:两次故障之间的平均时间间隔。 公式:
MTBF=MTTF+MTTR
适用场景:可修复系统,如服务器、业务系统。
7.系统可用性 AA
定义:系统处于可用状态的时间比例。 公式:

意义:直接对应服务级别协议 (SLA),如 99.9% 可用性 ≈ 年停机时间 ≤ 8.76 小时。
二、指标之间的关系
1.基本关系链:
失效概率 F(t) ↔ 可靠度 R(t) ↔ MTTF ↔ MTBF ↔ 可用性 A
2.故障率 λ(t) 与可靠度 R(t) 的关系:

3.可用性与 MTTR 的敏感性:
在 MTTF 固定的情况下,减少 MTTR 可大幅提高可用性。 高可用系统往往通过冗余部署、自动化故障恢复、热备降低 MTTR。
三、工程应用与实践
1.软件可靠性测试
通过收集失效数据估算 **失效强度 λ(t)**。 使用可靠性增长模型(如 Musa 模型、Jelinski-Moranda 模型)预测未来失效趋势。
2.运维与 SLA 管控
监控 MTBF 和 MTTR,确保达到 SLA。 典型等级: 99% 可用性 ≈ 每周停机 ≤ 1.68 小时 99.9% 可用性 ≈ 每年停机 ≤ 8.76 小时 99.99% 可用性 ≈ 每年停机 ≤ 52.56 分钟
3.可靠性设计优化
提高 MTTF:通过代码质量改进、异常防护、冗余备份。 降低 MTTR:通过自动化运维、快速回滚机制、蓝绿部署。
四、实例解析
假设某 SaaS 系统:
平均无故障运行时间 MTTF = 500 小时 平均修复时间 MTTR = 2 小时
则:
MTBF=500+2=502 小时

如果将 MTTR 从 2 小时优化为 0.5 小时:

可用性显著提升,且无需提升 MTTF。
五、总结
**MTTF 体现"故障前的耐久",MTTR 体现"修复效率"**,两者决定 MTBF。 可用性 A 是服务交付层的最终体现,是用户感知最直接的指标。 失效强度 λ(t) 与可靠度 R(t) 可用来预测系统生命周期内的表现。
1)软件可靠性定量关系图

2)Musa-Okumoto 可靠性增长模型

夜雨聆风