1.Hive存储格式

Hive支持各种数据格式,Hive利用Hadoop的InputFormat API来从不同的数据源读取数据,使用OutputFormat API将数据写成不同的格式。

2.数据存储格式

修改查看当前默认文件存储格式

set hive.default.fileformat;
set hive.default.fileformat=Orc;

(1)text

Text是最简单最常见的存储格式,它是纯文本记录,也是Hive的默认格式。

--存储方式
行存储

--特点
空间利用率低
有序列化和反序列话的开销

建表语句:

create table inventory(
     inv_date_sk     int,
     inv_item_sk     int,
     inv_warehouse_sk     int,
     inv_quantity_on_hand     int
)
row format delimited fields terminated by '|' 
stored as textfile;

(2)sequence

二进制文件,以<key,value>的形式序列化到文件中

--存储方式
行存储

--特点
可分片 压缩
支持record和block压缩,但是record压缩率低,一般选择block压缩
优势是文件和hadoop api中的mapfile是相互兼容的。

建表语句:

create table inventory(
     inv_date_sk     int,
     inv_item_sk     int,
     inv_warehouse_sk     int,
     inv_quantity_on_hand     int
)
row format delimited fields terminated by '|' 
stored as sequencefile;

使用block压缩

set mapred.output.compression.type=BLOCK;

(3)rcfile

--存储方式
数据按行分块 每块按照列存储

--特点
压缩快 快速列存取
读记录尽量涉及到的block最少
读取需要的列只需要读取每个row group 的头部定义。
读取全量数据的操作 性能对比sequencefile没有明显的优势

建表语句:

create table inventory(
     inv_date_sk     int,
     inv_item_sk     int,
     inv_warehouse_sk     int,
     inv_quantity_on_hand     int
)
row format delimited fields terminated by '|' 
stored as rcfile;

(4)orc

ORCFile 为 Optimized RCFile, 就是RCFile的改良版本

--存储格式
列存储,列式存储比起传统的行式存储更适合批量OLAP查询

--特点
支持Zlib LZO和Snappy压缩
可分片
列式存储,减少IO

建表语句

create table inventory(
     inv_date_sk     int,
     inv_item_sk     int,
     inv_warehouse_sk     int,
     inv_quantity_on_hand     int
)
row format delimited fields terminated by '|' 
stored as orc tblproperties ("orc.compress"="NONE");

snappy压缩

stored as orc tblproperties ("orc.compress"="SNAPPY");

也可以使用alter table来设置

create table inventory(
     inv_date_sk     int,
     inv_item_sk     int,
     inv_warehouse_sk     int,
     inv_quantity_on_hand     int
)
row format delimited fields terminated by '|' 
stored as orc;

ALTER TABLE inventory SET TBLPROPERTIES('orc.bloom.filter.columns'='*','orc.compress'='ZLIB');

合并小文件

用于合并小文件。但是只支持RCFILE和ORC文件类型。但是合并之后可能hui导致数据量变多

官网地址:LanguageManual DDL - Apache Hive - Apache Software Foundation

--普通表
ALTER TABLE table_name CONCATENATE;

--分区表 需要制定分区,分区字段为cur_date
ALTER TABLE table_name PARTITION 
(cur_date= 'val1', cur_date='val2', cur_date='val3', cur_date='val4') CONCATENATE;

orc总结:

  • 使用orc格式的存储,可以降低存储占用,而查询效率上也不会差,zlib和snnapy压缩格式对比,zlib压缩率会略高,但是查询效率略低于snnapy。建议使用orc的snnapy压缩。
  • 由于数据压缩,数据量变小,所以job启动后生成的map/reduce数目也会变少,占用的container就会少,所以变相增加了集群的计算能力。

注意:

不能直接通过以下sql语句来修改存储类型:

ALTER TABLE table_name [PARTITION partition_spec] SET FILEFORMAT file_format;

这个方法来修改原先是text格式的表为orc格式,那只是修改了表属性,而文件存储格式还是text的,所以查询会出现解析错误。

要使用orc格式,可以新建表,指定存储格式为orc,然后从原先的text表insert到新表中即可。

另外load方式加载数据,只是一个移动数据的过程,不会修改数据的格式,所以使用load加载数据要注意。

(5)parquet

--存储格式
行存储

--特点
Hadoop的通用存储格式,可以和Impala,Spark等数据查询引擎结合使用
具有很好的压缩性能,可以指定每一列的压缩方式。
可以减少大量的表扫描和反序列化的时间。
支持复杂嵌套的数据类型:json

建表语句

create table inventory(
     inv_date_sk     int,
     inv_item_sk     int,
     inv_warehouse_sk     int,
     inv_quantity_on_hand     int
)
row format delimited fields terminated by '|' 
stored as parquet;

-- 设置压缩格式为SNAPPY,根据需求来设置压缩格式,默认不压缩
ALTER TABLE inventory SET TBLPROPERTIES ('parquet.compression'='SNAPPY');

(6)自定义格式

用户可以通过实现inputformat和 outputformat来自定义输入输出格式。

3.使用总结

(1)textfile 存储空间消耗比较大,并且压缩的text无法分割和合并 查询的效率最低,可以直接存储,加载数据的速度最高

(2)orc存储空间最小,查询的效率最高 ,需要通过text文件转化来加载,加载的速度最低