虽然我们在日常工作中常常使用Redis来充当数据库的缓存,从而大大缓解数据库的压力以及提高用户的体验感,但是Redis也会存在阻塞的情况,导致整个系统变慢,从而影响用户体验。
所以我们在针对Redis阻塞的情况下可以从以下七个方面来整体的进行分析,看看到底是哪里导致了Redis的阻塞。
- 慢查询
- bigkey大对象
- swap
- fork子进程
- AOF刷盘阻塞
- Redis输入、输出缓冲区导致的阻塞
- 网络问题
慢查询
因为Redis是单线程的,所以如果出现大量的慢查询,可能会导致redis-server阻塞,可以通过slowlog get n 获取慢日志查看详细情况,如下所示
另外还可以通过CONFIG GET slowlog-*来查看现有的配置
bigkey大对象
bigkey大对象可能导致的问题如下
- 内存空间不均衡:例如在Redis Cluster中,其会造成节点的内存空间使用不均匀
- 超时阻塞:由于Redis单线程的特性,操作bigkey比较耗时,意味着阻塞Redis的可能性增大
- 网络阻塞:每次获取bigkey产生的网络流量较大。
但是要是几乎不会被访问到,那么只有内存空间不均匀的问题存在,影响不大,但是如果其是一个热点key(频繁访问),那么其影响还是很大的。
可以通过 redis-cli -h {ip} -p {port} bigkeys 发现大对象。
swap
因为Redis的数据存放在内存中,所以存放数据量的大小取决于内存的多少
如果一个Redis的实例的内存使用率超过可用最大内存,那么操作系统开始进行内存和swap空间的交换,把内存中旧的不用的内容写到硬盘的Swap区。
所以当Redis进程上发生内存交换,那么Redis和依赖Redis上数据的应用都会受到严重的性能影响。
我们可以使用used_memory指标可知道Redis正在使用的内存情况。
另外我们可以提前识别Redis内存交换:
- 识别Redis进程号
- redis-cli info server | grep process_id
- 根据进程号查询内存交换信息
- cat /proc/{process_id}/smaps | grep Swap
如果交换量都是0kb或者个别的4kb都是正常现象
- 预防内存交换:
- 确保机器有充足的可用内存
- 确保所有redis示例设置最大可用内存(maxmemory),防止极端情况下redis内存不可控增长
- 降低系统使用swap优先级
fork子进程
在 RDB 生成和 AOF 重写时,会 fork 一个子进程完成持久化工作,当 fork 操作执行太过耗时也会造成阻塞,阻塞原因是该操作会复制父进程的空间内存表,即 fork 操作耗时跟内存量(数据集)关系较大。
fork 操作是重量级操作,其耗时应该在 20ms/GB;应该严格控制每个实例可使用的最大内存 10GB 以内(复制空间内存表);降低 fork 操作执行频率,适当放宽 AOF 重写触发时机。
另外使用 info stats 命令获取 lastest_fork_usec 指标,表示 redis 最近一次 fork 操作耗时。
AOF刷盘阻塞
开启 AOF,文件刷盘一般每秒一次,硬盘压力过大时,fsync 需要等待写入完成。
查看 redis 日志或 info persistence 统计中的 aof_delayed_fsync 指标。
Redis 输入/输出缓冲区可能导致的阻塞
输入缓冲区
redis 为每个客户端分配了输入缓冲区,会将客户端发送命令临时保存,然后取出来执行。 qbuf 表示总容量(0 表示没有分配查询缓冲区),qbuf-free 表示剩余容量(0 表示没有剩余空间);大小不能超过 1G,当大小超过 1G 时会将客户端自动关闭,输入缓冲区不受 maxmemory 限制。
当大量的 key 进入输入缓冲区且无法被消费时,即可造成 redis 阻塞;通过 client list 命令可定位发生阻塞的客户端;通过 info clients 命令的 blocked_clients 参数可以查看到当前阻塞的命令。
输出缓冲区
其是 redis-server 端实现的一个读取缓冲区,redis-server 在接收到客户端的请求后,把获取结果写入到 client buffer 中,而不是直接发送给客户端。从而可以继续处理客户端的其他请求,这样异步处理方式使 redis-server 不会因为网络原因阻塞其他请求的处理。
网络问题
连接拒绝
- 网络闪断:一般在网络割接或带宽耗尽的情况;
- redis 连接拒绝:连接数大于 maxclients 时拒绝新的连接进入,可以关注 info stats 的 rejected_connections 指标;
- 连接溢出:
- 进程限制:进程可打开最大文件数控制 —— ulimit -n,通常 1024,大量连接的 redis 需要增大该值;
- backlog 队列溢出:系统对于特定端口 tcp 连接使用 backlog 队列保存,redis 默认 511,系统 backlog 默认 128,线上可使用 cron 定时执行 netstat -s | grep overflowed 统计;
网络延迟