当前状态:PROBLEM:2020-11-28T00:15:41.833920+08:00 0 [ERROR] [MY-011496] [Repl] Plugin group_replication reported: 'This server is not able to reach a majority of members in the group. This server will now block all updates. The server will remain blocked for the next 5 seconds. Unless contact with the majority is restored, after this time the member will error out and leave the group. It is possible to use group_replication_force_members to force a new group membership.'
关于MGR集群有几点需要注意的地方,否则可能会生产事故的: 1、备份不要在MGR集群上进行备份,在灾备库上备份 2、大数据抽取数据不要在MGR集群上,也要在灾备库上抽取
关于告警我们可以简单分析一下,三节点MGR集群,一个节点无法和多数节点通信,导致的结果会阻塞所有更新。这个阻塞前会有5秒的保留时间,是根据一个 组复制参数group_replication_member_expel_timeout,默认值5s,当然这个时间要看自己使用的MySQL版本决定。
分析思路: 1、查看时间点的系统资源使用情况,内存、CPU、网络流量、磁盘使用率等 2、发现磁盘使用率异常、磁盘IO异常,大量的写入操作 3、MGR其他节点无大量写入,分析可能是临时文件导致 4、查看慢查询日志,是否有排序、分组类操作,导致生产大量临时文件等
结论: 大数据抽数导致的磁盘IO耗尽,系统无响应,MGR集群无法通信,无响应节点被驱除出集群,这个锅DBA不能背啊~