一份好的事故文档,能救整个团队
一、为什么大多数事故文档是“无效的”?
二、时间线记录:这是事故文档的“骨架”
[10:02] 监控报警:数据库连接数飙升(+300%)[10:03] 用户反馈:核心接口超时[10:05] 运维确认:连接池耗尽[10:07] DBA:发现慢SQL阻塞[10:10] IC决策:执行限流[10:12] 应用侧开始降级[10:18] 系统恢复
三、操作日志结构:这是“可复现能力”
[时间] 操作人操作:影响范围:结果:是否回滚:
[10:10] 张三(DBA)操作:kill 会话 12345影响范围:订单库结果:连接数下降 30%是否回滚:否
夜雨聆风