故障的定义和避免¶
故障等级的定义¶
可以参照互联网网络故障标准来定义,一般公司故障定级是分四级,比如:P1 是最严重的故障,P4 是最轻微的故障。
P1
:服务或功能一段时间或者长时间不可用,造成公司资产损失,或者严重影响用户正常使用。P2
:服务或功能一段时间不可用,影响外部用户正常使用,并造成一定影响。P3
:服务或功能一段时间不可用,影响内部正常运营工作,外部用户无感知,或者影响轻微。P4
:短暂停服,内外用户都无明显感知,影响轻微。
高可用 SLA 说明:
为什么会故障?故障导致的三大类原因¶
- 变更(修改配置出问题,程序发布有BUG,重启应用);
- 用户行为(客户大促销,用户异常出发BUG,黑客攻击);
- 设备硬件故障(磁盘故障,网络线路故障,机房故障,自然灾害地震);
怎么做避免故障?¶
故障前¶
操作规范,安全检测,监控,数据备份,故障回滚方案,架构高可用方案,故障切换方案,故障自愈方案。
故障中¶
- 评估故障,是否执行回滚,是否执行切换方案等;
- 重要操作三思而行;
- 不要疲劳驾驶,喝酒不上机,上机不喝酒;
故障后¶
- 检查是否全部业务都恢复正常;
- 分析日志;
- 复盘分析;
- 总结方法避免类似故障;
最后更新: 2024年12月12日