早期的时候为了方便储存及使用数据,出现了关系型数据库,后来又出现了NOSQL,又后来由于数据存储要求越来越高又出现了大数据(hadoop),以及相关的工具(hbase、hive、spark计算引擎).
现在由于更复杂的业务背景,比如复杂维度查询,以及如何对大数据进行简化使用(使用了hadoop,就必须要使用对应的工具),所以市面上就出现新的数据系统:分析型数据库clickhouse、dorisDB和Apche doris…等等。不过现在市面上较为优秀的就以上三种。
OLAP背景
clickhouse:2016年,俄罗斯的Yandex开源了此数据系统,Yandex就和中国的百度类似,主要是人家不缺钱,不以此进行盈利,所以此消息一出,又使广大程序猿集体膜拜。让人惊讶的是,这个列式存储数据库的跑分要超过很多流行的商业MPP(MMP意指:大规模并行处理)数据库软件,例如Vertica。
Apach Doris:Apache Doris(incubating)从2008年第一个版本开始到今天已经走过了11个年头。期间,Doris 从最初的只为解决百度凤巢报表的专用系统,已经成长为目前国内唯一的分析型数据库孵化项目。一路走来, Doris 的初心从未改变。从doris1,一直发展到doris3,后又改名为PALO(也就是OLAP的反义,意为玩转OLAP),后来由于其快速稳定发展,在2018年贡献给了Apache,名为Apache doris。
dorisDB:dorisDB是由Apache Doris核心团队一起打造的一个企业级MMP数据库,它继承了doris十多年的成果,对传统的MMP数据库进行了创新,从新定义MMP分布式架构,集群可扩展至数百台节点,支持PB级数据规模,并且打造了全新的向量化执行引擎,单节点每秒可处理100行数据,查询速度更不用说,奇快无比。目前分为付费版和免费版,其实区别也就是付费版有Simd,相比之下比Vectorized更优秀,虽然现在可惜的是源码没开源,但据了解公司内其负责人已经承诺,免费版的dorisDB后续永远不会收费。
不得不说,国内的大牛真是让人佩服,虽说dorisDB是由一家小公司研发出来,分为收费版和免费版,不过可以理解,毕竟每一家公司也需要存活,只有活下来才有创造奇迹的可能。
OLAP使用场景
①:海量数据
②:复杂维度
③:实时数据
④:无事务数据
clickhouse优缺点评估
OLAP数据系统对比clickhouse、doris大PK
mysql、clickhouse、doris该如何选择?
以上对OLAP数据库做了一些分析,具体场景具体使用。
以上是我的一些见解,如有不对的地方,请大家尽情留言,共同讨论,共同进步。