前言

最近在将redis作为数据库使用(redis中存放大量数据)的项目中,偶然发现redis的主从节点发生了变化,但是没有任务报错,redis集群的各节点也没有fail状态,因此记录学习一下,redis的深层机制。

为什么

首先redis是单线程的,所有的命令发送的redis会进入一个队列,依次执行。当数据量很大时,执行flushall、keys、scan等耗时较长的命令时,就会照成redis节点阻塞。
其次,了解一下redis的集群节点检测机制。redis集群的其他节点,每隔一断时间,就会向集群中的其他节点发送ping包,以检测节点是否还活着。如果此时,某个主节点阻塞了,收到pong包的时间超时,大于 cluster-node-timeout,就会自动切换主从节点。此时,在redis-cli中查看cluster nodes,会发现节点会短暂的出现fail状态。当主从节点切换完毕,redis又会重新扫描一下集群中的所有redis节点,当阻塞的redis节点,执行完之后,又会重新回到正常状态。

解决

了解了上面说的redis机制之后,如果想要避免redis节点自动切换就很简单了,只需要调大redis.conf中的配置项cluster-node-timeout(默认15000 millisec)即可。