SDS学习

  • 1.1 SDS定义
  • 1.2 SDS与C字符串的区别
  • 1.3 总结


1.1 SDS定义

每个sds结构表示一个SDS值(有点像vector?):

struct sdshdr{
//buf数组中已占用的字节数量
int len;
//记录buf数组中未使用字节的数量
int free;
//字符数组,用于保存字符串
char buf[];
}

其中buf是一个char类型的数组,以空字符\0结尾。这样做的好处是SDS可以直接重用C字符串函数库里面的函数。

1.2 SDS与C字符串的区别

  1. 常数复杂度获取字符串长度
    C字符串不记录自身长度,所以需要遍历整个字符串来获得字符串长度,而SDS由于len属性,可以在O(1)的时间复杂度得到字符串长度。
  2. 避免缓冲区溢出
    当SDS API需要对SDS进行修改时,API会先检查SDS的空间是否满足修改所需的要求,如果不满足的话,API会自动将SDS的空间扩展(这里涉及到SDS的空间分配策略)至执行修改所需的大小,然后才执行实际的修改操作,所以使用SDS既不需要手动修改SDS的空间大小,也不会出现前面所说的缓冲区溢出问题。
  3. 减少修改字符串时带来的内存重分配次数
    SDS通过未使用空间free解除了字符串长度和底层数组长度之间的关联:buf数组长度=字符数量+1+free。
    通过未使用空间,实现了空间预分配和惰性空间释放两种优化策略,避免频繁的内存重分配。
    (1)空间预分配
    空间预分配用于优化SDS的字符串增长操作(当空间不够触发内存重分配时,会分配额外的未使用空间数量):a.当对SDS修改之后,SDS的长度(len)小于1MB,那么free=len;b.当对SDS修改之后,SDS的长度(len)大于1MB,那么free=1MB。
    这可以使Redis减少连续执行字符串增长操作所需的内存重分配次数。
    (2)惰性空间释放
    用于优化SDS的字符串缩短操作:当SDS的API需要缩短SDS保存的字符串时,程序并不立即使用内存重分配来回收缩短后多出来的字节,而是使用free属性将这些字节的数量记录起来,并等待将来使用。
    SDS也提供了相应的API,让我们可以在有需要的时候,真正释放SDS的未使用空间,所以不用担心惰性空间释放策略会造成内存浪费。
    (3)二进制安全
    C字符串不能保存二进制数据;SDS的API都是二进制安全的,会以处理二进制的方式来处理SDS存放在buf数组里的数据。
    于是我们称buf是字节数组——Redis不是用这个数组来保存字符,而是用它来保存一系列二进制数据。
    (4)兼容部分C字符串函数
    虽然SDS的API都是二进制安全的,但是它们一样遵循C字符串以空字符结尾的惯例。这可以让保存文本数据的SDS重用一部分<string.h>库定义的函数。

1.3 总结

C字符串

SDS

获取字符串长度的复杂度为O(N)

获取字符串长度的复杂度为O(1)

API是不安全的,可能会造成缓冲区溢出

API是安全的,不会溢出

修改字符串长度N次必然需要执行N次内存重分配

修改字符串长度N次最多需要执行N次内存重分配

只能保存文本数据

可以保存文本或者二进制数据

可以使用所有<string.h>库中的函数

可以使用部分<string.h>库中的函数

1.4 SDS API
具体参考《Redis设计与实现》2.3节