分布式数数据库非独立存储采用非独点空间的策略机制。
非独站空间是数据空间的一种,可以通过数据空间中的一个属性来描述,会与其他非独占空间的数据空间共用磁盘目录,通过逻辑来隔离,非独占空间会包含多个shard,多个shard可能属于多个数据空间,属于多张表。
非独占空间也可称为共享表空间:每一个数据库的所有的表数据,索引文件全部放在一个或多个文件中,默认这个共享表空间的文件路径。
原理
分布式数据库与他关系型数据库一样,有具体的存储结构、数据和元数据的,作为分布式数据库系统,首先要决定数据的存储模型,即数据是以何种形式保存下来。多个表对应一个表空间,一个表空间里可以有多个shard,在表创建时指定好表的空间及目录结构。即可共用了一个磁盘目录。1个磁盘存储指的就是一个磁盘目录,也就是一个存储的实例。
实现方式
元数据存储(”/”分隔符,实际不存在) 如下DB名称”DB1”,TABLE名称为” TABLE1”。 * KV元数据与Range之间的映射,如: 存储空间映射Range信息。 * 数据存储方式(如果“索引ID”设计时本身就定义了一个“特殊的前缀”,那就不再需要索引前缀),如:KEY为 存储记录数据。
优势与劣势
优势
•表空间可以分成多个文件存放到各个磁盘,所以表也就可以分成多个文件存放在磁盘上,表的大小不受磁盘大小的限制。
•数据和索相文件放在一起方便管理。
劣势
•所有的数据和索引存放到一个文件,虽然可以把一个大文件分成多个小文件,但是多个表及索引在表空间中混合存储,当数据量非常大的时候,表做了大量删除操作后表空间中将会有大量的空隙,特别是对于统计分析,对于经常删除操作的这类应用最不适合用共享表空间。
•共享表空间分配后不能回缩:当出现临时建索引或是创建一个临时表的操作表空间扩大后,就是删除相关的表也没办法回缩那部分空间了。
面临挑战
•非独占表空间转换为独占表空间,涉及技术细节较多,实现技术比较复杂。
•对数据表的规划及未来的增长量需要相当明确。
•数据迁移时会比较复杂,实施周期长。
以上为非独立存储的优势与劣势,「分布式技术专题」是国产数据库hubble团队精心整编,专题会持续更新,欢迎大家保持关注。