目录

一、字符串 - 数据结构

二、字符串 - 初始化luaS_init

三、字符串 - 创建一个字符串luaS_new

四、字符串 - 清除缓存luaS_clearcache


前面两章我们讲解了Lua的整个栈操作。本篇文章开始,我们重点阅读一下Lua的几个重要数据结构:字符串、内存操作、对象操作等。

字符串操作对应的文件:lstring.c

一、字符串 - 数据结构


Lua的字符串管理都会统一挂载到global_State全局状态机上。

字符串都会存储在TString对象结构上。Lua的字符串管理分两种类型:链表方式存储(短字符串(<40)) 和 HashMap 缓存方式

  • 链表方式:存储在stringtable strt; 链表结构上
  • 缓存方式:存储在TString *strcache[STRCACHE_N][STRCACHE_M] HashMap的结构上。

PS:这里有一个点没看懂,当调用*luaS_new函数,字符串存储会走缓存方式;当单独调用luaS_newlstr函数,短字符串会统一管理,但是长字符串就没有统一地方管理。这块还没太明白

通过下面这个大图,可以一眼看清楚整个Lua的字符串管理方式。

nlua获取lua属性 lua null_缓存

/* 字符串管理 */
stringtable strt;  /* 处理小于40的字符串,链表结构 - hash table for strings */
TString *strcache[STRCACHE_N][STRCACHE_M];  /* 字符串缓存,HashMap - cache for strings in API */

/*
** Header for string value; string bytes follow the end of this structure
** (aligned according to 'UTString'; see next).
** 字符串结构
*/
typedef struct TString {
  CommonHeader;
  lu_byte extra;  /* reserved words for short strings; "has hash" for longs */
  lu_byte shrlen;  /* 字符串长度 length for short strings */
  unsigned int hash; //hash值,字符串table 索引值
  union {
    size_t lnglen;  /* length for long strings 长字符串存储形式 */
    struct TString *hnext;  /* 链表形式存储下一个TSring,短字符串用到 linked list for hash table */
  } u;
} TString;

二维数组strcache的表索引,通过字符串hash值,并对桶做求余实现。

  • 桶的默认值是:STRCACHE_N,默认53个桶
  • 链表的默认长度:STRCACHE_M,默认2个元素
  • 但是list长度是STRCACHE_M=2,list比较小,估计作者认为hash冲突的概率会非常小,同时每次都会将最早的元素element淘汰出去
unsigned int i = point2uint(str) % STRCACHE_N;  /* hash */

二、字符串 - 初始化luaS_init


在全局状态机f_luaopen函数中,对字符串池进行了初始化。

初始化主要做两件事情:初始化链表、初始化缓存池

/*
 ** Initialize the string table and the string cache
 ** 初始化字符串链表和字符串缓存
 */
void luaS_init(lua_State *L) {
	global_State *g = G(L);
	int i, j;
	luaS_resize(L, MINSTRTABSIZE); /* 默认大小128 字符串table initial size of string table */
	/* pre-create memory-error message */
	g->memerrmsg = luaS_newliteral(L, MEMERRMSG); //错误处理字符串
	luaC_fix(L, obj2gco(g->memerrmsg)); /* it should never be collected */
	for (i = 0; i < STRCACHE_N; i++) /* 缓存表中填充默认支付 fill cache with valid strings */
		for (j = 0; j < STRCACHE_M; j++)
			g->strcache[i][j] = g->memerrmsg;
}

三、字符串 - 创建一个字符串luaS_new


创建字符串函数有两个:luaS_new 和 luaS_newlstr

  • luaS_new:创建一个新的字符串,带缓存方式
  • luaS_newlstr:创建一个新的字符串,不带缓存

这里有一点没明白,如果调用了 luaS_newlstr,并且是长字符串,这种方式如何来管理和跟踪这个内存分配?因为两个函数遍历了整个代码,都会使用,有些地方走缓存,有些地方不走缓存。

/*
 ** new string (with explicit length)
 ** 创建一个存新的字符串,不带缓存
 ** 字符串不能超过最大限制
 ** 新的字符串会memcpy拷贝一个副本,挂载到TString结构上
 */
TString *luaS_newlstr(lua_State *L, const char *str, size_t l) {
	if (l <= LUAI_MAXSHORTLEN) /* short string?  40字节 */
		return internshrstr(L, str, l);
	else {
		TString *ts;
		if (l >= (MAX_SIZE - sizeof(TString)) / sizeof(char))
			luaM_toobig(L);
		ts = luaS_createlngstrobj(L, l);
		memcpy(getstr(ts), str, l * sizeof(char)); //内存拷贝副本
		return ts;
	}
}

/*
 ** Create or reuse a zero-terminated string, first checking in the
 ** cache (using the string address as a key). The cache can contain
 ** only zero-terminated strings, so it is safe to use 'strcmp' to
 ** check hits.
 ** 创建一个新的字符串,带缓存方式
 ** 会调用luaS_newlstr方法
 ** 1. 先通过字符串,获取字符串hash值
 ** 2. 通过hash值取字符串,如果相同的字符串已经存在,则复用
 ** 3. 否则创建一个新的字符串
 **
 ** 字符串Table表,通过字符串的hash值找到list
 ** 但是list长度是STRCACHE_M=2,list比较小,估计作者认为hash冲突的概率会非常小
 ** 同时每次都会将最早的元素element淘汰出去
 */
TString *luaS_new(lua_State *L, const char *str) {
	unsigned int i = point2uint(str) % STRCACHE_N; /* hash */
	int j;
	TString **p = G(L)->strcache[i];
	for (j = 0; j < STRCACHE_M; j++) {
		if (strcmp(str, getstr(p[j])) == 0) /* hit? */
			return p[j]; /* that is it */
	}
	/* normal route */
	for (j = STRCACHE_M - 1; j > 0; j--)
		p[j] = p[j - 1]; /* move out last element */
	/* new element is first in the list */
	p[0] = luaS_newlstr(L, str, strlen(str));
	return p[0];
}

四、字符串 - 清除缓存luaS_clearcache


/*
 ** Clear API string cache. (Entries cannot be empty, so fill them with
 ** a non-collectable string.)
 ** 清楚缓存
 */
void luaS_clearcache(global_State *g) {
	int i, j;
	for (i = 0; i < STRCACHE_N; i++)
		for (j = 0; j < STRCACHE_M; j++) {
			if (iswhite(g->strcache[i][j])) /* will entry be collected? */
				g->strcache[i][j] = g->memerrmsg; /* replace it with something fixed */
		}
}