一、    代码风险控制和线上服务配置安全控制。

1、 通过我们的AOS系统对代码上线进行合理的审核,从研发、测试、产品、总监、运维各个环节增加管控,来实现代码安全性。
2、 通过我们的puppet管控对线上需要修改文件或修改系统配置,需要相关人员审核以便增加线上的安全性。
3、通过我们的puppet管控对线上需要安装软件等,需要相关人员审核以便增加线上的安全性。

二、    发现问题

1、    通过zabbix收集服务器上各个指标,比如系统负载、业务宕机,业务状态是否良好通过短信和邮件方式进行报警。(第一种报警方式)
2、    通过grafana+ influxdb展现出各个业务的状态是否良好、程序是否宕机、系统负载属于正常等,通过NOC组24小时人员监控进行电话报警。(第二种报警方式)
3、    通过kibana+spark+es收集日志信息,通过日志筛选和过滤展现出出问题的接口以及慢接口。比如5分钟内出现5XX的错误top10的url。通过noc组24小时人员监控进行电话报警。(第三种报警方式)
4、    通过我们的smokeping网络监控,可以检测出公司使用各个机房的网络连接情况。能够判断出是否网络问题导致业务有影响。

三、    分析问题

1、    通过kibana+es收集日志信息,通过日志的筛选和过滤找出慢接口和关联性以及通过大量数据找出可能将要出现的问题,进行分析问题。
2、    通过kibana+es大量的日志信息以及对整体业务的架构把控,做出合理的业务架构方案。使业务更合理和优越。

四、    处理问题

1、    收到短信和电话报警后,通过grafana+ influxdb找出问题具体事项,并通过kibana+es快速的查找问题接口以及出现问题的根本原因。
2、    接受到报警后,通过grafana+ influxdb、kibana+spark+es、smokeping、kibana+es综合性的快速查找问题根本原因。
3、    通过grafana+ influxdb观察确定依赖资源是否有问题。

五、    事后总结问题

1、    做出容灾和应急方案,出现问题能第一时刻恢复业务,保障业务的稳定运行。
2、    针对每次出现的问题进行问题分析、改进。便于下次同样类型的问题不会再次发生。

六、    运维自动化

1、    通过我们的puppet进行自动化配置,减少人工的手动操作避免人员的误操作同时增加人员的管控,增加了线上服务器安全性。
2、    通过我们的cmdb能够快速的查询服务器硬件配置、域名归属、服务器管理员等。
3、    通过我们的rt事务追踪管理能够快度的定位最近服务器上进行了那些重要操作信息。
4、    通过我们的sip系统够查看当前管理员负责当前业务下的所有服务器、域名等便于批量授权用户。
5、    通过我们的AOS代码上线,减少人员的操作避免人员的误操作。
6、    通过我们的docker平台,更好的合理运用服务器硬件资源,减少产品成本运算