1、Hbase概述

        HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。
        尽管已经有许多数据存储和访问的策略和实现方法,但事实上大多数解决方案,特别是一些关系类型的,在构建时并没有考虑超大规模和分布式的特点。许多商家通过复制和分区的方法来扩充数据库使其突破单个节点的界限,但这些功能通常都是事后增加的,安装和维护都很复杂。同时,也会影响RDBMS的特定功能,例如联接、复杂的查询、触发器、视图和外键约束这些操作在大型的RDBMS上的代价相当高,甚至根本无法实现。
       HBase从另一个角度处理伸缩性问题。它通过线性方式从下到上增加节点来进行扩展。HBase不是关系型数据库,也不支持SQL,但是它有自己的特长,这是RDBMS不能处理的,HBase巧妙地将大而稀疏的表放在商用的服务器集群上。
       HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统;Google 运行MapReduce 来处理Bigtable中的海量数据, HBase 同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable 利用Chubby作为协同服务, HBase 利用Zookeeper作为对应。
       HBase是一个构建在HDFS上的分布式列存储系统;
       HBase是基于Google BigTable模型开发的,典型的key/value系统;
       HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;
       从逻辑上讲,HBase将数据按照表、行和列进行存储。
       与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。



HBase的高并发和实时处理数据

       Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统,不适用于提供实时计算;HBase是可以提供实时计算的分布式数据库,数据被保存在HDFS分布式文件系统上,由HDFS保证其高容错性,但是再生产环境中,HBase是如何基于hadoop提供实时性呢? HBase上的数据是以StoreFile(HFile)二进制流的形式存储在HDFS上block块儿中;但是HDFS并不知道的hbase存的是什么,它只把存储文件视为二进制文件,也就是说,hbase的存储数据对于HDFS文件系统是透明的。下面是HBase文件在HDFS上的存储示意图。

       

Hbase数据库存储模式 hbase的特点有哪些_python

       HBase HRegion servers集群中的所有的region的数据在服务器启动时都是被打开的,并且在内存初始化一些memstore,相应的这就在一定程度上加快系统响应;而Hadoop中的block中的数据文件默认是关闭的,只有在需要的时候才打开,处理完数据后就关闭,这在一定程度上就增加了响应时间。
       从根本上说,HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的,即由LSM-Tree + HTable(region分区) + Cache决定——客户端可以直接定位到要查数据所在的HRegion server服务器,然后直接在服务器的一个region上查找要匹配的数据,并且这些数据部分是经过cache缓存的。



2、Hbase表的特点

       大:一个表可以有数十亿行,上百万列;
       无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;
       面向列:面向列(族)的存储和权限控制,列(族)独立检索;
       稀疏:空(null)列并不占用存储空间,表可以设计的非常稀疏;
       数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳;
       数据类型单一:Hbase中的数据都是字符串,没有类型;



3、Hbase数据模型

       HBase 以表的形式存储数据。表由行和列组成。列划分为若干个列族(row family),列族可以包含多个列。

       

Hbase数据库存储模式 hbase的特点有哪些_大数据_02



4、Hbase逻辑模型

       Hbase逻辑数据视图。

       

Hbase数据库存储模式 hbase的特点有哪些_大数据_03

       Hbase逻辑数据模型。

       

Hbase数据库存储模式 hbase的特点有哪些_python_04



4.1、Row Key

       是Byte array,是表中每条记录的“主键”,用来检索记录的主键,方便快速查找,Rowkey的设计非常重要。
       访问 HBase table 中的行,只有三种方式:通过单个 Row Key 访问;通过 Row Key 的 range; 全表扫描;Row Key 可以使任意字符串(最大长度是64KB,实际应用中长度一般为 10 ~ 100bytes)。
       在存储时,数据按照* Row Key 的字典序(byte order)排序存储*。设计 Key 时,要充分排序存储这个特性,将经常一起读取的行存储到一起(位置相关性)。



4.2、Column Family列族

       拥有一个名称(string),包含一个或者多个相关列。
       HBase 表中的每个列都归属于某个列族。列族是表的 Schema 的一部分(而列不是),必须在使用表之前定义。列名都以列族作为前缀,例如 courses:history、courses:math 都属于 courses 这个列族。
       访问控制、磁盘和内存的使用统计都是在列族层面进行的。在实际应用中,列族上的控制权限能帮助我们管理不同类型的应用。



4.3、Column列

       属于某一个column family,familyName:columnName,每条记录可动态添加。



4.4、Version Number

       类型为Long,默认值是系统时间戳,可由用户自定义。



4.5、Value(Cell)

       Byte array,Hbase中的数据都是字节串,没有其他类型。



4.6、时间戳

       HBase 中通过 Row 和 Columns 确定的一个存储单元称为 Cell。每个 Cell 都保存着同一份数据的多个版本。 版本通过时间戳来索引,时间戳的类型是 64 位整型。时间戳可以由HBase(在数据写入时自动)赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也 可以由客户显示赋值。如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。每个 Cell 中,不同版本的数据按照时间倒序排序,即最新的数据排在最前面。
       为了避免数据存在过多版本造成的管理(包括存储和索引)负担,HBase 提供了两种数据版本回收方式。 一是保存数据的最后 n 个版本,二是保存最近一段时间内的版本(比如最近七天)。用户可以针对每个列族进行设置



4.7、Cell

       Cell 是由 {row key,column(=< family> + < label>),version} 唯一确定的单元。Cell 中的数据是没有类型的,全部是字节码形式存储。



5、Hbase物理模型

       

Hbase数据库存储模式 hbase的特点有哪些_大数据_05

       每个column family存储在HDFS上的一个单独文件中,空值不会被保存。
       Row Key 和 Version number在每个 column family中均有一份;
       HBase 为每个值维护了多级索引,即:<Rowkey, column family, column name, timestamp>
       逻辑数据模型中空白cell在物理上是不存储的,因为根本没有必要存储,因此若一个请求为要获取t8时间的contents:html,他的结果就是空。相似的,若请求为获取t9时间的anchor:my.look.ca,结果也是空。但是,如果不指明时间,将会返回最新时间的行,每个最新的都会返回。



6、Hbase物理存储

       Table中所有行都按照row key的字典序排列;
       Table在行的方向上分割为多个Region;
       Region按大小分割的,每个表开始只有一个region,随着数据增多,region不断增大,当增大到一个阀值的时候,region就会等分会两个新的region,之后会有越来越多的region;

       

Hbase数据库存储模式 hbase的特点有哪些_大数据_06

       Region是Hbase中分布式存储和负载均衡的最小单元,不同Region分布到不同RegionServer上;
       Region虽然是分布式存储的最小单元,但并不是存储的最小单元。Region由一个或者多个Store组成,每个store保存一个columns family;每个Strore又由一个memStore和0至多个StoreFile组成,StoreFile包含HFile;memStore存储在内存中,StoreFile存储在HDFS上。

       

Hbase数据库存储模式 hbase的特点有哪些_大数据_07