故障管理
故障管理在故障生命周期中的位置
- 分维度统计分析规律,形成系统化的改进方向
- 跟进每个case的改进方案,彻底消除隐患
- 前事不忘后事之师,供后续参考
故障定级
事故级别 | 服务级别 | 一般事故 | 严重事故 | 重大事故 | 特大事故 |
对外完全停止服务时间 | 一级服务 | 1-3分钟 | 3-10分钟 | 10-30分钟 | 30分钟以上 |
二级服务 | 5-10分钟 | 10-30分钟 | 30-60分钟 | 60分钟以上 | |
三级服务 | 10-30分钟 | 30-60分钟 | 60分钟以上 | 不适用 | |
服务部分故障导致的流量损失占单日总流量比 | 一级服务 | 0.15%-0.45% | 0.45%-1.5% | 1.5%-4.5% | 4.5%以上 |
二级服务 | 0.75%-1.5% | 1.5%-4.5% | 4.5%-9% | 9%以上 | |
三级服务 | 1.5%-4.5% | 4.5%-9% | 9%以上 | 不适用 | |
服务功能异常或严重影响用户体验,受影响访问量占单日总流量比 | 一级服务 | 3%-9% | 9%-30% | 30%-90% | 90%以上 |
二级服务 | 15%-30% | 30%-90% | 90%-180% | 180%以上 | |
三级服务 | 30%-90% | 90%-180% | 180%以上 | 不适用 | |
更新延迟或数据错误 | 一级服务 | 延迟2小时以内 | 延迟2-12小时 | 延迟超过12小时 | 更新延迟超过12小时且无法恢复 |
二级服务 | 延迟2小时以内 | 延迟2-12小时 | 延迟超过12小时 | 更新延迟超过12小时且无法恢复 | |
三级服务 | 延迟12小时以内 | 延迟12-24小时 | 更新延迟超过24小时且无法恢复 | 不适用 | |
收入损失:以最近季度财报中总营收/90计算为单日平均营收,收入损失阈值以单日平均营收百分比计算 | 一级服务 | 0.2% ~ 0.5% | 0.5% ~ 1% | 1% ~ 3% | >3% |
二级服务 | 0.2% ~ 0.5% | 0.5% ~ 1% | 1% ~ 3% | >3% | |
三级服务 | 0.2% ~ 0.5% | 0.5% ~ 1% | 1% ~ 3% | >3% |
故障管理流程
case必填字段
- Case:标题、故障发生时间、故障发现时间、止损操作开始时间、止损操作完成时间、止损生效完成时间、服务恢复时间、内容、负责人、损失数量、损失比例、损失类型、触发原因、根因分类、故障持续时长、所属业务、分级发布是否拦截、故障范围。
- TODO:负责人、所属业务、预计完成时间、解决优先级