7.Redis主从切换--Sentinel

Sentinel(哨兵)是用于监控redis集群中Master状态的工具,其已经被集成在redis2.4+的版本中



一、Sentinel作用


1)Master状态检测


2)如果Master异常,则会进行Master-Slave切换,将其中一个Slave作为Master,将之前的Master作为Slave


3)Master-Slave切换后,master_redis.conf、slave_redis.conf和sentinel.conf的内容都会发生改变,



二、Sentinel工作方式


1)每个Sentinel以每秒钟一次的频率向它所知的Master,Slave以及其他Sentinel实例发送一个PING命令


2)如果一个实例(instance)距离最后一次有效回复PING命令的时间超过 down-after-milliseconds 选项所指定的值,则这个实例会被Sentinel标记为主观下线


3)如果一个Master被标记为主观下线,则正在监视这个Master的所有Sentinel要以每秒一次的频率确认Master的确进入了主观下线状态


4)当有足够数量的Sentinel(大于等于配置文件指定的值)在指定的时间范围内确认Master的确进入了主观下线状态,则Master会被标记为客观下线



5)在一般情况下,每个Sentinel会以每10秒一次的频率向它已知的所有Master,Slave发送INFO命令


6)当Master被Sentinel标记为客观下线时,Sentinel向下线的Master的所有Slave发送INFO命令的频率会从10秒一次改为每秒一次


7)若没有足够数量的Sentinel同意 Master已经下线,Master的客观下线状态就会被移除


  若Master重新向Sentinel的PING命令返回有效回复,Master的主观下线状态就会被移除



主观下线和客观下线


主观下线:Subjectively Down,简称SDOWN,指的是当前Sentinel实例对某个redis服务器做出的下线判断。


客观下线:Objectively Down,简称ODOWN,指的是多个Sentinel实例在对Master Server做出SDOWN判断,


          并且通过SENTINEL is-master-down-by-addr命令互相交流之后,得出的Master Server下线判断,然后开启failover.



SDOWN适合于Master和Slave,只要一个Sentinel发现Master进入了ODOWN,这个Sentinel就可能会被其他Sentinel推选出,并对下线的主服务器执行自动故障迁移操作


ODOWN只适用于Master,对于Slave的 Redis实例,Sentinel在将它们判断为下线前不需要进行协商,所以Slave的 Sentinel永远不会达到ODOWN


三、配置


1:指定监听Master(三个节点)


# vi /main/redis/sentinel.conf


port 26379


daemonize yes


sentinel monitor mymaster 192.168.100.211 6379 2


sentinel down-after-milliseconds mymaster 30000


sentinel parallel-syncs mymaster 1


sentinel failover-timeout mymaster 900000


logfile "/main/redis/logs/sentinel.log"



#上面配置文件说明如下:


#第一行指定sentinel端口号


#第二行指定sentinel为后台启动


#第三行指定Sentinel去监视一个名为mymaster的Master,Master的IP地址为192.168.100.211,端口号为6379,


 最后的2表示当有2个Sentinel检测到Master异常时才会判定其失效,即只有当2个Sentinel都判定Master失效了才会自动迁移,


 如果Sentinel的数量不达标,则不会执行自动故障迁移。


#第四行指定Sentinel判定Master断线的时间。(单位为毫秒,判定为主观下线SDOWN)


 如果redis-server无法在"down-after-milliseconds"时间内响应或者响应错误信息,都会被认为此redis-server处于SDOWN状态.


#第五行指定在执行故障转移时,最多可以有多少个Slave同时对新的Master进行同步。


 这个数字设置为1,虽然完成故障转移所需的时间会变长,但是可以保证每次只有1个Slave处于不能处理命令请求的状态