跳转至

故障的定义和避免

故障等级的定义

可以参照互联网网络故障标准来定义,一般公司故障定级是分四级,比如:P1 是最严重的故障,P4 是最轻微的故障。

  • P1:服务或功能一段时间或者长时间不可用,造成公司资产损失,或者严重影响用户正常使用。
  • P2:服务或功能一段时间不可用,影响外部用户正常使用,并造成一定影响。
  • P3:服务或功能一段时间不可用,影响内部正常运营工作,外部用户无感知,或者影响轻微。
  • P4:短暂停服,内外用户都无明显感知,影响轻微。

高可用 SLA 说明:

SLA

为什么会故障?故障导致的三大类原因

  1. 变更(修改配置出问题,程序发布有BUG,重启应用);
  2. 用户行为(客户大促销,用户异常出发BUG,黑客攻击);
  3. 设备硬件故障(磁盘故障,网络线路故障,机房故障,自然灾害地震);

怎么做避免故障?

故障前

操作规范,安全检测,监控,数据备份,故障回滚方案,架构高可用方案,故障切换方案,故障自愈方案。

故障中

  • 评估故障,是否执行回滚,是否执行切换方案等;
  • 重要操作三思而行;
  • 不要疲劳驾驶,喝酒不上机,上机不喝酒;

故障后

  • 检查是否全部业务都恢复正常;
  • 分析日志;
  • 复盘分析;
  • 总结方法避免类似故障;

最后更新: 2024年12月12日