场景
CentOS7上搭建Hadoop集群(入门级)
在上面搭建起来Hadoop的环境后,进行HBase的安装。
HBase
HBase是一个基于HDFS的面向列的分布式数据库,源于Google的
BigTable论文。HDFS基于流式数据访问,低时间延迟的数据访问并不
适合在HDFS上运行。所以,如果需要实时地随机访问超大规模数据集,使用HBase
是更好的选择。
HBase体系结构
HBase同样是采用Master/Slaves的主从服务器结构,它由一个HMaster服务器和多
个HRegionServer服务器构成,而所有服务器都是通过ZooKeeper协调并处理各服务器
运行期间可能遇到的错误。HMaster负责管理所有的HRegionServer,各HRegionServer
负责存储许多HRegion,每一个HRegion是对HBase逻辑表的分块。
HRegion
HBase使用表(Table)存储数据集,表由行和列组成,这与关系型数据库类似。
但是在HBase中,当表的大小超过设定值时,HBase会自动将表划分为不同的区域
(Region),每个区域称为一个HRegion,它是HBase集群上分布式存储和负载均衡
的最小单位,在这一点上,表和HRegion类似于HDFS中文件与文件块的概念。一个
HRegion中保存一个表中一段连续的数据,通过表名和主键范围(开始主键~结束主键)
来区分每一个HRegion。最开始,一个表只有一个HRegion,随着HRegion逐渐变大,
直到超出设定的闽值大小,便会在某行的边界把表分成两个大小基本相同的HRegion,
称为HRegion分裂。
HRegionServer
HRegionServer负责响应用户I/O请求,向HDFS中读写数据,一台机器上只运行
一个HRegionServera HRegionServer包含两部分:HLog部分和HRegion部分。
HLog用于存储数据日志,实质是HDFS的Sequence File。到达HRegion的写操作
首先被追加到日志中,然后才被加入内存中的MemStoreo HLog文件主要用于故障恢复。
例如某台HRegionServer发生故障,那么它所维护的HRegion会被重新分配到新的机器
上,新的HRegionServer在加载HRegion的时候可以通过HLog对数据进行恢复。
HRegion由多个HRegion组成,每个HRegion对应表中的一个分块,并且每一个
HRegion只会被一个HRegionServer管理。
HMaster
每台HRegionServer都会和HMaster服务器通信。HMaster的主要任务就是告诉每
个HRegionServer它要维护哪些HRegion 。
在HBase中可以启动多个HMaster,通过ZooKeeper的Master选举机制来保证系
统中总有一个Master在运行。HMaster的具体包括以下功能。
1、管理用户对表的增、删、改、查操作。
2、管理HRegionServer的负载均衡,调整HRegion分布。
3、在HRegion分裂后,负责新HRegion的分配。
4、在HRegionServer停机后,负责失效HRegionServer上的HRegion迁移。
ZooKeeper
ZooKeeper存储的是HBase中的一ROOT表和.META.表的位置,这是HBase中两
张特殊的表,称为根数据表(-ROOT-)和元数据表(.META. )。.META表记录普通用
户表的HRegion标识符信息,每个HRegion的标识符为:表名+开始主键十唯一ID。
随着用户表的HRegion的分裂,.META表的信息也会增加,并且还可能会被分割为几
个HRegion,此时可以用一个-ROOT-表来保存META的HRegion信息,而-ROOT-表
是不能被分割的,也就是-ROOT表只有一个HRegion。那么客户端(Client)在访问
用户数据前需要先访问ZooKeeper,然后访问一ROOT表,接着访问.META.表,最后
才能找到用户数据所在的位置进行访问。
此外ZooKeeper还负责监控各个机器的状态,之前各机器需要在ZooKeeper中注册一
个实例。当某台HRegionServer发生故障时,通知HMaster进行HRegion迁移;若HMaster
发生故障,ZooKeeper负责恢复HMaster,并且保证同时有且只有一台HMaster运行。
特点
HBase是一个基于列模式的映射数据库,它只能表示简单的键一值的映射关
系。与关系型数据库相比,它具有如下特点。
1、数据类型:
HBase只有简单的字符串类型,它只保存字符串.而关系型数据库有着丰富的类型选择和存储方式。
2、数据操作:
HBase只有简单的插入、查询、删除、清空等操作,表和表之间是
分离的,没有复杂的表和表之间的关系,所以不能也没有必要实现表和表之间
的关联操作。而关系型数据库有多种连接操作。
3、存储模式:
HBase是基于列存储的,每个列族都由几个文件保存,不同列族的
文件是分离的。而关系型数据库是基于表格结构和行模式存储的。
4、数据维护:
HBase的更新操作实际上是插入了新的数据,它的旧版本依然会保留,
而关系型数据库是替换修改。
5、可伸缩性:
HBase这类分布式数据库就是为了这个目的而开发出来的,所以它
能够轻松地增加或减少硬件数量,并且对错误的兼容性也比较高。而关系型数
据库通常需要增加中间层才能实现类似的功能。
注:
关注公众号
霸道的程序猿
获取编程相关电子书、教程推送与免费下载。
实现
1、首先下载HBase的安装包
https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/
这里选择2.4.5版本下的bin.tar.gz的文件下载
下载成功之后将其上传并解压到master服务器上
目录文件说明:
bin: 包含了所有可执行命令与脚本
conf:配置文件目录
hbase-webapps:存储Web应用的目录,这些应用主要用于查看HBase的运行状态。
默认访问地址http://master:16010,其中master是HBase Mater服务器地址。
lib:jar文件目录,包括第三方依赖与Hadoop相关jar文件,其中Hadoop相关jar文件最好能与实际运行的Hadoop版本一致。
logs:日志文件
2、分布模式的HBase会运行在多个节点上,通常是将HBase的HMaster运行在HDFS的NameNode上,而
将HRegionServer运行在HDFS的DataNode上。
进入到conf目录,修改配置文件
修改hbase-site.xml
说明:
hbase.cluster.distributed 配置HBase为完全分布式
hbase.master 配置HMaster的地址
hbase.zookeeper.quorum 配置Zookeeper集群中所有服务器的位置
hbase.rootdir 配置HRegionServer的数据库存储目录
3、修改hbase-env.sh
此文件是来配置全局HBase集群系统的特性,每一台机器都可以通过该文件来了解全局HBse的
某些特性。在文件末尾需要增加以下环境变量
说明:
前3个环境变量分别代表Java.、Hadoop、HBase的安装目录。分布式的HBase集
群需要ZooKeeper实例的运行,最后一个环境变量HBASE MANAGES ZK表示HBase
是否使用内置的ZooKeeper实例,默认为true。当在hbase-site.xml文件中配置了hbase.
zookeeper.quorum属性后,系统会使用该属性指定的ZooKeeper集群服务器列表。在启动
HBase时,HBase将把ZooKeeper作为自身的一部分运行,其对应进程为“HQuorumPeer" ,
关闭HBase时其内置ZooKeeper实例也一起关闭。如果HBASE MANAGES ZK为
false,表示不会使用内置ZooKeeper实例,也就是内置ZooKeeper不会随HBase启动,而
需要用户在指定机器上独立安装配置ZooKeeper实例,同样使用hbase.zookeeper.quorum
属性指定这些机器,并且在启动HBase之前必须手动启动这些机器的ZooKeeper。
这里使用HBase内置ZooKeeper实例。
4、修改regionservers文件
该文件列出T所有HRegionServer节点,配置方式与Hadoop的slaves文件类似,
每一行指定一台机器。当HBase启动、关闭时会把此文件中列出的所有机器同时启动、
关闭。
5、同Hadoop的分布式安装类似,还需要将HBase所在目录/hbase分别复制到slave1、slave2
6、启动HBase
进入到master节点的hbase的bin目录下
7、在slave1和2节点上输入jps查看增加了两个java进程,HQuorumPeer 为ZooKeeper进程和HMaster为HBase进程。
8、在启动HBase后,通过命令
进入到HBase Shell
然后使用命令
可以看到HBase的运行状态
标识共有两个HRegionServer正在正常运行
还可以通过HMaster节点的16010端口查看HBase的运行状态
http://192.168.148.128:16010/
最后通过命令exit退出HBase Shell