hbase api删除列 hbase删除某一列数据

转载

mob64ca13f87273 2024-04-22 20:50:46

大家如果想快速有效的学习，思想核心是“以建立知识体系为核心”，具体方法是“守破离”。确保老师课堂上做的操作，反复练习直到熟练。

hbase api删除列 hbase删除某一列数据_数据

hbase api删除列 hbase删除某一列数据_Hadoop_02

HBase表中的每个列都归属于某个列族，列族必须作为表模式(schema)定义的一部分预先给出。如 create ‘test’, ‘course’；
列名以列族作为前缀，每个“列族”都可以有多个列成员(column)；如course:math, course:english, 新的列族成员（列）可以随后按需、动态加入；
权限控制、存储以及调优都是在列族层面进行的；
HBase把同一列族里面的数据存储在同一目录下，由几个文件保存。

由行和列的坐标交叉决定；
单元格是有版本的；
单元格的内容是未解析的字节数组；由{row key， column( = +)， version} 唯一确定的单元。 cell中的数据是没有类型的，全部是字节码形式存贮。
HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和region名字外，同时还包括 sequence number和timestamp，timestamp是” 写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统中sequence number。
HLog SequeceFile的Value是HBase的KeyValue对象，即对应HFile中的KeyValue。

hbase api删除列 hbase删除某一列数据_hbase api删除列_03

保证任何时候，集群中只有一个master 存贮所有Region的寻址入口。实时监控Region server的上线和下线信息。并实时通知Master 存储HBase的schema和table元数据

为Region server分配region 负责Region server的负载均衡发现失效的Region server并重新分配其上的region 管理用户对table的增删改操作

HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据
每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region（裂变）
当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver 上。
一个region由多个store组成，一个store对应一个CF（列族）
store包括位于内存中的memstore和位于磁盘的storefile写操作先写入memstore，当memstore中的数据达到某个阈值，hregionserver会启动flashcache进程写入storefile，每次写入形成单独的一个storefile
当storefile文件的数量增长到一定阈值后，系统会进行合并（minor、major compaction），在合并过程中会进行版本合并和删除工作（majar），形成更大的storefile（minor：一种合并方式，自动触发的，是将三个storefile文件合并成一个，不会影响读写性能，）（major compaction：另一种合并方式，合并是会删除被标记的旧的数据（失效标记），老版本的数据）
当一个region所有storefile的大小和数量超过一定阈值后，会把当前的region分割为两个，并由hmaster分配到相应的regionserver服务器，实现负载均衡（随机分配裂变的region）
客户端检索数据，先在memstore找，找不到再找storefile

掌握hbase的分布式集群部署
| | mster | regionserver | | ------- | ----- | ------------ | | deng001 | * | | | deng002 | * | * | | deng003 | | * | | deng004 | | * |