一、什么是scan命令

  • scan 命令用于迭代数据库中的数据库键。
  • 也就是实现数据库键的遍历操作,可能大家都熟知一个keys命令,但它存在一些缺陷,在生产环境中scan是更好的选择。

二、scan命令和keys命令的对比

2.1 时间复杂度

scan命令和keys命令的时间复杂度都是O(N),这里是一致的。

2.2 是否可以部分遍历

  • keys命令是不支持类似limit的操作的,只能一次性取出符合所有条件的key
  • scan命令提供了limit参数,可以控制每次返回结果的最大条数。

2.3 scan与keys比优势

虽然时间复杂度都是O(N),但scan是分次进行的,不会阻塞线程。

三、scan命令用法

3.1 基本语法

SCAN cursor [MATCH pattern] [COUNT count]
  • cursor:游标
  • pattern:匹配的模式
  • count:指定从数据集里返回多少元素,默认值为10

3.2 实例

redis 127.0.0.1:6379> scan 0   # 使用 0 作为游标,新开始一次迭代
1) "17"                        # 本次迭代返回的游标
2)  1) "key-12"
    2) "key-8"
    3) "key-4"
    4) "key-14"
    5) "key-16"
    6) "key-17"
    7) "key-15"
    8) "key-10"
    9) "key-3"
   10) "key-7"
   11) "key-1"
redis 127.0.0.1:6379> scan 17  # 使用的是第一次迭代时返回的游标 17 可以接着上一次迭代,继续迭代
1) "0" # 这次迭代返回0,表示数据集已经被完整遍历过了
2) 1) "key-5"
   2) "key-18"
   3) "key-0"
   4) "key-2"
   5) "key-19"
   6) "key-13"
   7) "key-6"
   8) "key-9"
   9) "key-11"

四、scan命令要点

4.1 scan命令的保证

从完整遍历开始直到完整遍历结束期间, 一直存在于数据集内的所有元素都会被完整遍历返回; 这意味着, 如果有一个元素, 它从遍历开始直到遍历结束期间都存在于被遍历的数据集当中, 那么 SCAN 命令总会在某次迭代中将这个元素返回给用户。

一些缺点

由于使用游标来记录迭代状态,因此scan命令是有一些缺陷的

  • 同一个元素可能会被返回多次。
  • 如果一个元素是在迭代过程中被添加到数据集的, 又或者是在迭代过程中从数据集中被删除的, 那么这个元素可能会被返回, 也可能不会。

4.2 scan命令每次执行返回的元素数量

  • 增量式迭代命令并不保证每次执行都返回某个给定数量的元素。
  • 增量式命令甚至可能会返回零个元素, 但只要命令返回的游标不是 0 , 应用程序就不应该将迭代视作结束。

一些规则

  • 对于一个大数据集来说, 增量式迭代命令每次最多可能会返回数十个元素;
  • 而对于一个足够小的数据集来说, 如果这个数据集的底层表示为编码数据结构(encoded data structure,适用于是小集合键、小哈希键和小有序集合键), 那么增量迭代命令将在一次调用中返回数据集中的所有元素。

4.3 游标为何不是按顺序的

scan命令是使用游标来遍历的,游标返回0说明整个数据集都遍历完成。

4.3.1 Redis结构

  • Redis有String、List等数据结构,不过这些数据结构都是value的数据结构,Redis的Key-Value映射是通过哈希表来实现的,类似于HashMap的数组+链表形式。
  • scan命令就是对这个数组进行遍历,每次返回的游标值就是数组的索引值。

4.3.2 scan遍历顺序

  • 如果不考虑Redis数据结构的扩容和缩容,直接按顺序遍历就可以得到所有的key值,但如果有扩容和缩容,就需要考虑到是否有重复的遍历或遗漏的遍历。
  • 如果我们按照低位加法,即从前向后遍历,当扩容或者缩容时进行的rehash操作使得数据分散到不同的槽位,这就有可能发生重复遍历与遗漏遍历的情况。
    如下图所示:
扩容解析

redis的key的like redis使用keys_redis的key的like


上图是高位进位的图示,如果我们此时遍历到10时发生扩容,我们接下来会继续遍历

010->110->001->101->011->111

也就是说扩容后也不会重复遍历到之前遍历过的元素。

redis的key的like redis使用keys_数据集_02


这张图是正常的低位进位,如果遍历到01发生扩容,接下来继续遍历:

001->010->011->100->101->110->111

可以发现100这个元素被重复遍历了,因此使用高位进位是更好的选择。

4.3.3 Redis渐进式rehash

定义

随着操作的不断执行, 哈希表保存的键值对会逐渐地增多或者减少, 为了让哈希表的负载因子(load factor)维持在一个合理的范围之内, 当哈希表保存的键值对数量太多或者太少时, 程序需要对哈希表的大小进行相应的扩展或者收缩。

过程
  • 为字典的 ht[1] 哈希表分配空间, 这个哈希表的空间大小取决于要执行的操作, 以及 ht[0] 当前包含的键值对数量 (也即是 ht[0].used 属性的值):
    如果执行的是扩展操作, 那么 ht[1] 的大小为第一个大于等于 ht[0].used * 2 的 2^n (2 的 n 次方幂);
    如果执行的是收缩操作, 那么 ht[1] 的大小为第一个大于等于 ht[0].used 的 2^n 。
  • 将保存在 ht[0] 中的所有键值对 rehash 到 ht[1] 上面: rehash 指的是重新计算键的哈希值和索引值, 然后将键值对放置到 ht[1] 哈希表的指定位置上。
  • 当 ht[0] 包含的所有键值对都迁移到了 ht[1] 之后 (ht[0] 变为空表), 释放 ht[0] , 将 ht[1] 设置为 ht[0] , 并在 ht[1] 新创建一个空白哈希表, 为下一次 rehash 做准备。
渐进式rehash

为了避免 rehash 对服务器性能造成影响, 服务器不是一次性将 ht[0] 里面的所有键值对全部 rehash 到 ht[1],而是分多次、渐进式地将 ht[0] 里面的键值对慢慢地 rehash 到 ht[1]。

  • 为 ht[1] 分配空间, 让字典同时持有 ht[0] 和 ht[1] 两个哈希表。
  • 在字典中维持一个索引计数器变量 rehashidx , 并将它的值设置为 0 , 表示 rehash 工作正式开始。
  • 在 rehash 进行期间, 每次对字典执行添加、删除、查找或者更新操作时, 程序除了执行指定的操作以外, 还会顺带将 ht[0] 哈希表在 rehashidx 索引上的所有键值对 rehash 到 ht[1] , 当 rehash 工作完成之后, 程序将 rehashidx 属性的值增一。
  • 随着字典操作的不断执行, 最终在某个时间点上, ht[0] 的所有键值对都会被 rehash 至 ht[1] , 这时程序将 rehashidx 属性的值设为 -1 , 表示 rehash 操作已完成。
    渐进式 rehash 的好处在于它采取分而治之的方式, 将 rehash 键值对所需的计算工作均滩到对字典的每个添加、删除、查找和更新操作上, 从而避免了集中式 rehash 而带来的庞大计算量。

五、参考资料