ORC与Parquet均为列式存储结构,那么他们有什么不同呢?

Apache Parquet
源自google Dremel 系统,Parquet 相当一Dremel中的数据存储引擎,而Apache顶级开源醒目 Drill正式Dremel的开源实现.
Apache Parquet 最初的设计动机是存储嵌套式数据,比如Protocolbuffer thrift json 等 将这类数据存储成列式格式以方便对其高效压缩和编码,
且使用更少的IO操作取出需要的数据,也是Parquet 相比于ORC的优势,它能透明的将protobuf 和thrift被广泛的使用的今天,于parquet 进行集成,是一件非常容易和自然地事情,
除了上述优势外,相比于ORC, Parquet 没有太多其他可圈可点的地方,比如他不支持uodate操作(数据写成后不可修改),不支持ACID等.

Apache ORC
ORC(optimizedRC File) 存储源自RC(RecordCloimnar File)这种存储格式,RC是一种列式存储引擎,对schema演化(修改schema需要重新生成数据)支持较差,主要是在压缩编码,查询性能方面做了优化.
RC/ORC最初是在Hive中得到使用,最后发展势头不错,独立成一个单独的项目.Hive1.xbanbendu版本对事物和update操作的支持,便是给予ORC实现的(其他存储格式暂不支持).
OCR发展到今天,已经具备一些非常高级的feature,比如支持update操作,支持ACID,支持struct,array复杂类型.你可以使用复杂类型构建一个类似parquet的嵌套式数据架构,但层数非常多时,写起来非常麻烦和复杂,而parquet提供的schema表达方式更容易表示出多级嵌套的数据类型.

 

一、ORC与Parquet总结对比
1、orc不支持嵌套结构(但可通过复杂数据类型如map<k,v>间接实现),parquet支持嵌套结构
2、orc与hive的兼容性强,作为hive的常用存储格式
3、orc相比parquet的存储压缩率较高,如下图
4、orc导入数据和数据查询的的速度比parquet快

hiveand or的用法区别_Apache

 

 

二、实测结果

存储格式

存储占用(HDFS)

查询SQL

查询耗时(秒)

ORC

58.3G

select 
app_id,user_id,event_id,page_id,page_time
from 
tmp.track_event_bucket
where pt='2020-12-09' 
and app_id ='11205'
and event_id='OP_E_H5_CLICK_20200513_9415'

35s

Parquet

311.9 G 

select 
app_id,user_id,event_id,page_id,page_time
from 
tmp.track_event_parquet
where pt='2020-12-09' 
and app_id ='11205'
and event_id='OP_E_H5_CLICK_20200513_9415'

66s

 

上面的测试结果仅供参考,从上面也可以说明orc作为hive存储格式的普适性,无论从存储还是查询效率,orc均占有优势。

参考:

https://developer.aliyun.com/article/226990