背景:需要将HBase中表xyz(列簇cf1,列val)迁移至Hive

1. 建立Hive和HBase的映射关系

运行hive shell进入hive命令行模式,运行如下脚本



CREATE EXTERNAL TABLE hbase_student(key int, value string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "xyz", "hbase.mapred.output.outputtable" = "xyz");



  注意:(EXTERNAL表示HBase中已经存在了xyz表;如果HBase中不存在,则去掉EXTERNAL关键字,执行命令后,将会在HBase中创建xyz表)

1.2 在Hive中查看



hbase_student:>  show tables



  在hbase中查看xyz表:>  list

hive hbase外部分区表 hbase映射到hive外部表_hive hbase外部分区表

2. 插入数据测试

在HBase端xyz表插入数据,并查看:

  查看表结构:desc ‘xyz’

表插入一条数据:put ‘xyz’,’0’,’cf1:val’,’lowi’

  查看表中的数据:scan ‘xyz’

 

hive hbase外部分区表 hbase映射到hive外部表_hive_02

在Hive中的hbase_table_1表查看:select * from hbase_student;

 

hive hbase外部分区表 hbase映射到hive外部表_插入数据_03

在Hive端hbase_table_1表插入数据,并查看:

表插入一条数据:insert into hbase_student values (‘1’,’lojun’);

  查看数据:select * from hbase_student;

 

hive hbase外部分区表 hbase映射到hive外部表_hive_04

在HBase中的xyz表查看:scan ‘xyz’

 

hive hbase外部分区表 hbase映射到hive外部表_hive hbase外部分区表_05

3.删除hive表:hive> DROP TABLE IF EXISTS hbase_student;

 

hive hbase外部分区表 hbase映射到hive外部表_数据_06

  此时hive表已经删除成功,再去查hbase表’xyz’,发现也已经被删除:

 

hive hbase外部分区表 hbase映射到hive外部表_数据_07

  这个问题与hive、hbase表关联的方式有关:

(1)创建hive表无EXTERNAL



CREATE TABLE hbase_student(key int, value string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "xyz", "hbase.mapred.output.outputtable" = "xyz");



hive建表时创建了hbase表。这种情况下,hdfs的hive表目录有hive文件夹,但是里面没有数据(数据是存在hbase里面的)。

overwrite关键字进行插入数据时。原本数据不会被删除,有同样的行健会被更新覆盖。因为数据是存在hbase中的,遵守hbase插入数据的规则。

hive表时,hbase表也会删除。

disabled table,然后drop table;

zookeeper里面也就删除了;

TBLS里面还有hive表的信息。但是用select * from hive 查询的时候报错表不存在(TableNotFoundException)。

 然后删除hive里面的表的时候会报错TableNotFoundException)。继续show tables时,发现表已经不在了。TBLS里面也没有hive表了。

(1)EXTERNAL



CREATE EXTERNAL TABLE hbase_student(key int, value string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "xyz", "hbase.mapred.output.outputtable" = "xyz");



 这种情况是hbase里面已经有这张表了,创建一个hive表去管理这hbase表。

 当hive使用overwrite关键字进行插入数据时。跟第一种情况一样。

  1)删除hive表对hbase没有影响;

  2)但是先删除hbase表hive就会报TableNotFoundException;但是删除hive不会报上面这个错。