redis知识点汇总
全称:remoteDictionaryservice远程字典服务
主要应用:缓存
其余应用:根据远程存储、高性能等可实现分布式锁、
其数据结构-5种:String(字符串)、list(列表)、set(集合)、hash(哈希表)、zset(有序集合)
Redis所有数据结构都是以唯一的key字符串作为名称,然后通过这个唯一的key来获得其相应的value(Map<String,Object>)
Redis的字符串是动态字符串,是可以修改的字符串,内部结构实现上类似于Java的ArrayList,采用预分配冗余空间的方式来减少内存的频繁分配,如图中所示,内部为当前字符串实际分配的间capacity一般要高于实际字符串长度len。当字符串长度小于1M时,扩容都是加倍现有的空间,如果超过1M,扩容时一次只会多扩1M的空间。需要注意的是字符串最大长度为512M。
可以对key设置过期时间,到点自动删除,这个功能常用来控制缓存的失效时间.
Redis的列表相当于Java里面的LinkedList,注意它是链表而不是数组。这意味着list的插入和删除操作非常快,时间复杂度为O(1),但是索引定位很慢,时间复杂度为O(n).当列表弹出了最后一个元素之后,该数据结构自动被删除,内存被回收。Redis的列表结构常用来做异步队列使用
Redis的字典相当于Java里面的HashMap,它是无序字典.其中Redis的字典的值只能是字符串
当hash移除了最后一个元素之后,该数据结构自动被删除,内存被回收。hash结构也可以用来存储用户信息,不同于字符串一次性需要全部序列化整个对象,hash可以对用户结构中的每个字段单独存储。这样当我们需要获取用户信息时可以进行部分
获取。而以整个字符串的形式去保存用户信息的话就只能一次性全部读取,这样就会比较浪费网络流量。hash也有缺点,hash结构的存储消耗要高于单个字符串,到底该使用hash还是字符串,需要根据实际情况再三权衡。
Redis的集合相当于Java语言里面的HashSet,它内部的键值对是无序的唯一的。
zset可能是Redis提供的最为特色的数据结构,它也是在面试中面试官最爱问的数据结构。它类似于Java的SortedSet和HashMap的结合体,一方面它是一个set,保证了内部value的唯一性,另一方面它可以给每个value赋予一个score,代表这个value的排序权重。它的内部实现用的是一种叫着「跳跃列表」的数据结构。
list/set/hash/zset这四种数据结构是容器型数据结构
1、createifnotexists
如果容器不存在,那就创建一个,再进行操作
2、dropifnoelements
如果容器里元素没有了,那么立即删除元素,释放内存
过期时间
Redis所有的数据结构都可以设置过期时间,时间到了,Redis会自动删除相应的对象。需要注意的是过期是以对象为单位,比如一个hash结构的过期是整个hash对象的过期,而不是其中的某个子key。还有一个需要特别注意的地方是如果一个字符串已经设置了过期时间,然后你调用了set方法修改了它,它的过期时间会消失。
应用场景-分布式锁
通过在业务发起是在redis中设置一个数,标识锁。并设置失效时间。在2.8版本之前需要通过引入锁相关的lib.在2.8版本之后,提供了set指令。将setnx与expire结合。需要注意:Redis分布式锁不要用于较长时间的任务。如果真的偶尔出现了,数
据出现的小波错乱可能需要人工介入解决。还有一种方法是通过额外的逻辑判断key对应的值是否一致
应用场景-异步消息队列、延时队列
Redis的list(列表)数据结构常用来作为异步消息队列使用,使用rpush/lpush操作入队列,使用lpop和rpop来出队列。blpop/brpop阻塞读;如果线程一直阻塞在哪里,Redis的客户端连接就成了闲置连接,闲置过久,服务器一般会主动断开连接,减少闲置资源占用。这个时候blpop/brpop会抛出异常来。
Redis作为消息队列为什么不能保证100%的可靠性?
Redis来做消息队列采用发布-订阅模式。这种模式是一对多的关系,即一条消息会被多个消费者消费。不能保证每个消费者都能接收到消息,没有ACK机制,无法要求消费者收到消息后进行ACK确认。如果消息丢失、Redis宕机部分数据没有持久化甚至网络抖动都可能带来数据的丢失。
延时队列可以通过Redis的zset(有序列表)来实现。我们将消息序列化成一个字符串作为zset的value,这个消息的到期处理时间作为score,然后用多个线程轮询zset获取到期的任务进行处理,多个线程是为了保障可用性
如何保证任务仅执行一次?
Redis提供zrem方法是多线程多进程争抢任务的关键,它的返回值决定了当前实例有没有抢到任务,因为loop方法可能会被多个线程、多个进程调用,同一个任务可能会被多个进程线程抢到,通过zrem来决定唯一的属主。
应用场景-位图
一种信息压缩的方式实现数据存储标识,比如:打卡签到的信息记录。通过用一个bit来标识是否打卡。
位图不是特殊的数据结构,它的内容其实就是普通的字符串,也就是byte数组。Redis的位数组是自动扩展,如果设置了某个偏移位置超出了现有的内容范围,就会自动将位数组进行零扩充。
Redis提供了位图统计指令bitcount和位图查找指令bitpos,bitcount用来统计指定位置范围内1的个数,bitpos用来查找指定范围内出现的第一个0或1,可以指定了范围参数[start,end],遗憾的是,start和end参数是字节索引,也就是说指定的位范围必须是8的倍数,而不能任意指定。
应用场景-HyperLogLog
HyperLogLog提供不精确的去重计数方案,虽然不精确但是也不是非常不精确,标准误差是0.81%
单个HyperLogLog会占用12K的存储空间,在计数比较小时,它的存储空间采用稀疏矩阵存储,空间占用很小,仅仅在计数慢慢变大,稀疏矩阵占用空间渐渐超过了阈值时才会一次性转变成稠密矩阵,才会占用12k的空间。
相关命令:pfadd、pfcount、pfmerge
应用场景-布隆过滤器
布隆过滤器可以理解为一个不怎么精确的set结构,当你使用它的contains方法判断某个对象是否存在时,它可能会误判。但是布隆过滤器也不是特别不精确,只要参数设置的合理,它的精确度可以控制的相对足够精确,只会有小小的误判概率。当布隆过滤器说某个值存在时,这个值可能不存在;当它说不存在时,那就肯定不存在。
Redis4.0之后
bf.add,bf.exists,bf.madd,bf.mexists
bf.reserve有三个参数,分别是key,error_rate和initial_size。错误率越低,需要的空间越大。initial_size参数表示预计放入的元素数量,当实际数量超出这个数值时,误判率会上升。所以需要提前设置一个较大的数值避免超出导致误判率升高。如果不使用bf.reserve,默认的error_rate是0.01,默认的initial_size是100。
原理:每个布隆过滤器对应到Redis的数据结构里面就是一个大型的位数组和几个不一样的无偏hash函数。
应用场景-简单限流
通过zset数据结构的score值圈出这个时间窗口来。而且我们只需要保留这个时间窗口,窗口之外的数据都可以砍掉。那这个zset的value使用用毫秒时间戳。
应用场景-漏斗限流
funnel漏斗的剩余空间就代表着当前行为可以持续进行的数量,漏嘴的流水速率代表着系统允许该行为的最大频率。
Redis4.0之后Redis-Cell模块,cl.throttlekeyinit-sizemax_countdurationtokenNo例:CL.THROTTLEtest100400603
应用场景-GeoHash
GeoHash算法会继续对这个整数做一次base32编码(0-9,a-z去掉a,i,l,o四个字母)变成一个字符串。在Redis里面,经纬度使用52位的整数进行编码,放进了zset里面,zset的value是元素的key,score是GeoHash的52位整数值。zset的score虽然是浮点数,但是对于52位的整数值,它可以无损存储。
相关命令:geoadd、geodist、geopos、geohash、georadiusbymember
注意:Geo的数据使用单独的Redis实例部署,不使用集群环境;如果业务大。需要在业务层进行拆分。
应用场景-scan
keys没有offset、limit参数,一次性吐出所有满足条件的key。
keys算法是遍历算法,复杂度是O(n)。因为Redis是单线程程序,顺序执行所有指令。容易有延迟、超时。
scan复杂度虽然也是O(n),但是它是通过游标分步进行的,不会阻塞线程;提供limit参数;提供模式匹配功能;返回的结果可能会有重复,需要客户端去重复,这点非常重要;遍历的过程中如果有数据修改,改动后的数据能不能遍历到是不确定的;单次返回的结果是空的并不意味着遍历结束,而要看返回的游标值是否为零
redis单线程如何提供高并发使用?
通过非阻塞IO、事件轮询API(多路复用)。另外配置上指令队列(用于接收指令),响应队列(用于反馈结果);
Redis的定时任务会记录在一个称为最小堆的数据结构中。这个堆中,最快要执行的任务排在堆的最上方。在每个循环周期,Redis都会将最小堆里面已经到点的任务立即进行处理。处理完毕后,将最快要执行的任务还需要的时间记录下来,这个时间就是select系统调用的timeout参数。因为Redis知道未来timeout时间内,没有其它定时任务需要处理,所以可以安心睡眠timeout的时间
RESP是Redis序列化协议的简写。它是一种直观的文本协议,优势在于实现异常简单,解析性能极好。
Redis的持久化机制有两种,第一种是快照,第二种是AOF日志。快照是一次全量备份,AOF日志是连续的增量备份。快照是内存数据的二进制序列化形式,在存储上非常紧凑,而AOF日志记录的是内存数据修改的指令记录文本。AOF日志在长期的运行过程中会变的无比庞大,数据库重启时需要加载AOF日志进行指令重放,这个时间就会无比漫长。所以需要定期进行AOF重写,给AOF日志进行瘦身。
我们知道 Redis 是单线程程序,这意味着单线程同时在服务线上的请求还要进行文件 IO 操作,文件 IO 操作会严重拖垮服务器请求的性能。还有个重要的问题是为了不阻塞线上的业务,就需要边持久化边响应客户端请求。Redis 使用操作系统的多进程 COW(Copy On Write) 机制来实现快照持久化。
glibc fork 产生一个子进程,使用操作系统的 COW 机制来进行数据段页面的分离。数据段是由很多操作系统的页面组合而成,当父进程对其中一个页面的数据进行修改时,会将被共享的页面复制一份分离出来,然后对这个复制的页面进行修改。这时子进程相应的页面是没有变化的,还是进程产生时那一瞬间的数。
Redis 提供了 bgrewriteaof 指令用于对 AOF 日志进行瘦身。其原理就是开辟一个子进程对内存进行遍历转换成一系列 Redis 的操作指令,序列化到一个新的 AOF 日志文件中。序列化完毕后再将操作期间发生的增量 AOF 日志追加到这个新的 AOF日志文件中,追加完毕后就立即替代旧的 AOF 日志文件了,瘦身工作就完成了。
Linux 的 glibc 提供了 fsync(int fd)函数可以将指定文件的内容强制从内核缓存刷到磁盘。
Redis 在形式上看起来也差不多,分别是 multi/exec/discard。multi 指示事务的开始,exec 指示事务的执行,discard 指示事务的丢弃。
为什么 Redis 的事务不能支持回滚?
Redis命令在事务中可能会执行失败,但是Redis事务不会回滚,而是继续会执行余下的命令。如果您有一个关系型数据库的知识,这对您来说可能会感到奇怪,因为关系型数据在这种情况下都是会回滚的。Redis这样做,主要是因为:只有当发生语法错误(这个问题在命令队列时无法检测到)了,Redis命令才会执行失败,或对keys赋予了一个类型错误的数据:这意味着这些都是程序性错误,这类错误在开发的过程中就能够发现并解决掉,几乎不会出现在生产环境。由于不需要回滚,这使得Redis内部更加简单,而且运行速度更快。
主从同步
CAP原理(C:Consistent 一致性;A:Availability 可用性;P :Partition tolerance 分区容忍性)
网络分区:分布式系统的节点往往都是分布在不同的机器上进行网络隔离开的,这意味着必然会有网络断开的风险。
CAP 原理就是—— 网络分区发生时,一致性和可用性难以同时保证。
Redis 的主从数据是异步同步的,并不满足「 一致性」要求。当客户端在 Redis 主节点修改了数据后,立即返回,即使在主从网络断开的情况下,主节点依旧可以正常对外提供修改服务, 满足「 可用性」。Redis 保证「 最终一致性」。
redis增量同步的是指令流,主节点将修改的指令存在本地的内存buffer中,异步将其同步到从节点。从节点反馈同步状态和同步的位置。主节点采用环形数组的方式来存储指令。
Codis 使用 Go 语言开发,它是一个代理中间件,它和 Redis 一样也使用 Redis 协议对外提供服务,当客户端向 Codis发送指令时,Codis 负责将指令转发到后面的 Redis 实例来执行,并将返回结果再转回给客户端。Codis 上挂接的所有 Redis实例构成一个 Redis 集群,当集群空间不足时,可以通过动态增加 Redis 实例来实现扩容需求。
Codis 怎样将特定的 key 转发到特定的 Redis 实例呢?
Codis 将所有的 key 默认划分为 1024 个槽位(slot),它首先对客户端传过来的 key 进行 crc32 运算计算哈希值,再将 hash后的整数值对 1024 这个整数进行取模得到一个余数,这个余数就是对应 key 的槽位。
扩容后的KEY迁移
Codis 对 Redis 进行了改造,增加了 SLOTSSCAN 指令,可以遍历指定 slot 下所有的key。Codis 通过 SLOTSSCAN扫描出待迁移槽位的所有的 key,然后挨个迁移每个 key 到新的 Redis 节点。在迁移过程中,Codis还是会接收到新的请求打在当前正在迁移的槽位上。Codis 无法判定迁移过程中的 key究竟在哪个实例中,所以它采用了另一种完全不同的思路。当 Codis 接收到位于正在迁移槽位中的 key 后,会立即强制对当前的单个key 进行迁移,迁移完成后,再将请求转发到新的 Redis 实例。