文章目录
- 1. 概述
- 2. Redis的LRU算法
- 2.1 一般性的LRU算法
- 2.2 淘汰数据样本采集
- 2.2.1 非精准的LRU
- 3 热点数据
- 3.1 热点发现
- 3.2 热点数据采用哪种淘汰策略
- 参考
1. 概述
众所周知,Redis的所有数据都存储在内存中,但是内存是一种有限的资源,所以为了防止Redis无限制的使用内存,在启动Redis时可以通过配置项maxmemory来指定其最大能使用的内存容量。例如可以通过以下配置来设置Redis最大能使用 1G 内存:maxmemory 1G
当Redis使用的内存超过配置的 maxmemory 时,便会触发数据淘汰策略。Redis提供了多种数据淘汰的策略。
主动清理策略在Redis 4.0 之前一共实现了 6 种内存淘汰策略,在 4.0 之后,又增加了 2 种策略,总共8种:
a) 针对设置了过期时间的key做处理:
- volatile-ttl:在筛选时,会针对设置了过期时间的键值对,根据过期时间的先后进行删除,越早过期的越先被删除。
- volatile-random:就像它的名称一样,在设置了过期时间的键值对中,进行随机删除。
- volatile-lru:会使用 LRU 算法筛选设置了过期时间的键值对删除。
- volatile-lfu:会使用 LFU 算法筛选设置了过期时间的键值对删除。
b) 针对所有的key做处理:
- allkeys-random:从所有键值对中随机选择并删除数据。
- allkeys-lru:使用 LRU 算法在所有数据中进行筛选删除。
- allkeys-lfu:使用 LFU 算法在所有数据中进行筛选删除。
c) 不处理:
- noeviction:不会剔除任何数据,拒绝所有写入操作并返回客户端错误信息"(error) OOM command not allowed when used memory",此时Redis只响应读操作。
2. Redis的LRU算法
Redis使用了结构体robj来存储缓存对象,而robj结构有个名为lru的字段,用于记录缓存对象最后被访问的时间,Redis就是以lru字段的值作为淘汰依据。robj结构如下:
typedef struct redisObject {
...
unsigned lru:24;
...
}
robj;
当缓存对象被访问时,便会更新此字段的值。代码如下:
robj *lookupKey(redisDb *db, robj *key, int flags) {
dictEntry *de = dictFind(db->dict,key->ptr);
if (de) {
robj *val = dictGetVal(de);
/* Update the access time for the ageing algorithm.
* Don't do it if we have a saving child, as this will trigger
* a copy on write madness. */
if (server.rdb_child_pid == -1 &&
server.aof_child_pid == -1 &&
!(flags & LOOKUP_NOTOUCH))
{
if (server.maxmemory_policy & MAXMEMORY_FLAG_LFU) {
updateLFU(val);
} else {
val->lru = LRU_CLOCK();
// 更新lru字段的值
}
}
return val;
} else {
return NULL;
}
}
lookupKey()
函数用于查找key对应的缓存对象,所以当缓存对象被访问时便会调用此函数。
2.1 一般性的LRU算法
LRU是 Least Recently Used 的缩写,即最近最少使用,很多缓存系统都使用此算法作为淘汰策略。
最简单的实现方式就是把所有缓存通过一个链表连接起来,新创建的缓存添加到链表的头部,如果有缓存被访问了,就把缓存移动到链表的头部。由于被访问的缓存会移动到链表的头部,所以没有被访问的缓存会随着时间的推移移动的链表的尾部,淘汰数据时只需要从链表的尾部开始即可。
这种lru实现的算法,需要维护一个链,实现排序,在头部的就是最近访问过的,尾部是许久就没有访问过的。淘汰数据时只需要从链表的尾部开始即可
下图展示了这个过程:
2.2 淘汰数据样本采集
省略原文的代码。。。
根据idle的值找到当前缓存对象所在 EvictionPoolLRU数组的位置,然后把缓存对象保存到 EvictionPoolLRU数组中。以下插图解释了数据采样的过程:
所以EvictionPoolLRU数组的最后一个元素便是最优的淘汰缓存对象。
从上面的分析可知,淘汰数据时只是从样本中找到最优的淘汰缓存对象,并不是从所有缓存对象集合中查找。由于前面介绍的 LRU算法 需要维护一个LRU链表,而维护一个LRU链表的成本比较大
,所以Redis才出此下策。
2.2.1 非精准的LRU
上面提到的LRU(Least Recently Used)策略,实际上Redis实现的LRU并不是可靠的LRU,也就是名义上我们使用LRU算法淘汰键,但是实际上被淘汰的键并不一定是真正的最久没用的
,这里涉及到一个权衡的问题,如果需要在全部键空间内遍历搜索最优解,则必然会增加系统的开销,Redis是单线程的,也就是同一个实例在每一个时刻只能服务于一个客户端,所以耗时的操作一定要谨慎。
为了在一定成本内实现相对的LRU,早期的Redis版本是基于采样的LRU,也就是放弃全部键空间内搜索解改为采样空间搜索最优解。自从Redis3.0版本之后,Redis作者对于基于采样的LRU进行了一些优化,目的是在一定的成本内让结果更靠近真实的LRU。
3 热点数据
3.1 热点发现
如何确定热点数据?
3.2 热点数据采用哪种淘汰策略
一般采用lru策略淘汰热点数据。
LRU的优点:LRU相比于 LFU 而言性能更好一些,因为它算法相对比较简单,不需要记录访问频次,可以更好的应对突发流量。
LRU的缺点:虽然性能好一些,但是它通过历史数据来预测未来是局限的,它会认为最后到来的数据是最可能被再次访问的,从而给与它最高的优先级。有些非热点数据被访问过后,占据了高优先级,它会在缓存中占据相当长的时间,从而造成空间浪费。
LFU的优点:LFU根据访问频次访问,在大部分情况下,热点数据的频次肯定高于非热点数据,所以它的命中率非常高。
LFU的缺点:LFU 算法相对比较复杂,性能比 LRU 差。有问题的是下面这种情况,比如前一段时间微博有个热点话题热度非常高,就比如那种可以让微博短时间停止服务的,于是赶紧缓存起来,LFU 算法记录了其中热点词的访问频率,可能高达十几亿,而过后很长一段时间,这个话题已经不是热点了,新的热点也来了,但是,新热点话题的热度没办法到达十几亿,也就是说访问频次没有之前的话题高,那之前的热点就会一直占据着缓存空间,长时间无法被剔除
。
参考
《Redis数据淘汰算法》 原文讲的比较细,我只摘了部分
《Redis的过期策略和内存淘汰机制、热点数据及问题》