业务监控覆盖:

  1. 业务监控覆盖的简介
  2. 体系&流程介绍

基础设施监控:机房 网络 温度 湿度 流量 遍历 网络带宽 丢包

系统应用层:各个应用的进程 容量 性能 指标包含:CPU load 内存 磁盘 IO

业务监控:业务指标,业务总量 成功率 耗时 crash率 转化率

用户反馈层:外部用户的投诉 反馈量 在线量 热线反馈量 舆情 监控平台

  1. 通用方案
  2. 最佳实践
  3. 定义:故障等级定义 通知策略

淘宝交易创建下跌超过5% 会启动P2级别应急 电话应呼

以故障等级定义作为分母,完成各个业务点对应业务监控项的配置,并接入GOC,7*24小时进行实时报警盯屏,即为业务监控覆盖

  1. 流转体系:4层报警

IDC监控 RAPT

网络监控 X6

系统应用监控 AlIMONITOR

业务监控 XFLUSH/SUNFIRE

  1. 接入体系

监控服务诉求

配置监控项

监控报警接入、 数据接入

监控服务:运行值班

工具支撑、ALI- 监控体系

监控服务、运营结果输出

  1. 业务监控

基于日志监控:

时间-时间戳

序列号-类似于traceID 精确定位

类型标识-分类统计

数据属性-是否压测 是否线上数据 1表示压测数据

结果-成功 失败

错误码-定义失败原因 报错内容 错误码分类 统计去排查

处理时长-衡量整个请求的质量

自定义区间

基于上面的字段属性,快速得到监控系项目,总量,成功量,成功率,平均耗时,失败量,失败率 配置监控

HTTP请求:

可以通过NGINX的ACCESS.LOG

HSF请求:

通过EAGLEEYE的EAGLEEYE.LOG

无线的请求:

用MTOP的MTOP-MONITOR.LOG

accessId accessKey

云上业务:

云上的日志数据接入SLS后可以

通过SUNFIRE快速完成配置

案例:某app问题

业务无监控

统计无数据

管理无抓手

应急响应慢

排查链路长

恢复时间长

安全生产警钟长鸣

架构优化 系统改造 编码质量 容灾建设

变更管控 灰度能力 监控优化 应急预案 演练 系统巡查 压测

安全生产组织

措施:

变更规范、灰度规范、红线、故障分、稳定性分、业务可用率、安全生产策略等

安全生产日、安全生产月、案例分享、风险排查等

理念:

面试失败设计

无灰度 不变更

变更三把斧:可灰度 可观测 可回滚

安全生产,从我做起

熔断及问责(公共云、专有云)

红黄牌(公共云、专有云)

变更红线及问责(专有云)

  1. 熔断-公共云

1.1 公共云产品出现P1故障,启动公共云熔断机制,熔断范围为( 疑似)责任团队

1.2如故障等级达到E3及以上,启动公共云全局熔断

1.3熔断期间,熔断范围内所有类型变更停止发布3天

1.4熔断期内再次出现因变更触发P1或P2故障,将引发问责

  1. 熔断-专有云

2.1专有云项目若出现P1故障,则对该项目启动熔断机制

2.2专有云熔断期内,该专有云项目的所有类型变更停止发布7天

2.3熔断期内专有云再次出现因变更触发P1或P2故障,将引发问责

  1. 红黄牌-公共云

3.1对于同一-个产品责任团队,7天内发生2起S1故障,对相应的故障责任团队发出7天的黄牌警告

3.2黄牌警告期,若该团队再次发生S1故障,则发出红牌警告,并进行3天的产品熔断

3.3若产品熔断期,再次发生S1故障,则熔断期顺延3天,以此类推

3.4对7天内因变更导致故障数大于1起,且变更触发故障率超过2.5%的团队,发出黄牌警告

3.5若持续第二周仍命中黄牌规则,则发出红牌警告,并进行3天的产品熔断

3.6若产品熔断期,再次发生S1故障,则熔断期顺延3天,以此类推

  1. 红黄牌-专有云

4.1 7天内发生2起专有云P1或S1故障,对相应的故障责任团队发出7天的黄牌警告;黄牌警告

期,若该团队再次发生专有云P1或S1故障,则发出7天的红牌警告;若红牌警告期,再次发生故障,则警告期顺延7天

4.2 对于同一一个专有云平台,3个月内连续发生2起相同原因导致的故障,对相应的故障责任团队发出黄牌警告;若发生3次,则发出红牌警告

  1. 变更红线-专有云

5.1禁止一切未通过变更管理平台申请和审批的变更操作。一切在客户生产环境执行的变更,都必须得到客户的同意或预授权,并严格按照变更方案,在客户允许的时间和范围内执行

5.2禁止无影响面说明、操作步骤、验证方案、应急预案的变更

5.3禁止一切与变更方案计划内容、线上问题排查无关的生产环境变更操作

5.4禁止部署非版本经理提供的版本