impala的简介
原创
©著作权归作者所有:来自51CTO博客作者六mo神剑的原创作品,请联系作者获取转载授权,否则将追究法律责任
一、概述
Impala是Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点
impala使用hive的元数据, 完全在内存中计算
是CDH平台首选的PB级大数据实时查询分析引擎
二、Impala的特点
1、基于内存进行计算,能够对PB级数据进行交互式实时查询、分析
2、无需转换为MR,直接读取HDFS及Hbase数据 ,从而大大降低了延迟。
Impala没有MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和
Query Exec Engine三部分组成
3、C++编写,LLVM统一编译运行
在底层对硬件进行优化, LLVM:编译器,比较稳定,效率高
4、兼容HiveSQL
支持hive基本的一些查询等,hive中的一些复杂结构是不支持的
5、具有数据仓库的特性,可对hive数据直接做数据分析
6、支持Data Local
数据本地化:无需数据移动,减少数据的传输
7、支持列式存储
可以和Hbase整合:因为Hive可以和Hbasez整合
8、支持JDBC/ODBC远程访问
三、Impala缺点
1、对内存依赖大
只在内存中计算,官方建议128G(一般64G基本满足),可优化: 各个节点汇总的节点(服务器)内存选用大的,不汇总节点可小点
2、完全依赖hive
3、实践过程中分区超过1w 性能严重下下降
定期删除没有必要的分区,保证分区的个数不要太大
4、稳定性不如hive
因完全在内存中计算,内存不够,会出现问题, hive内存不够,可使用外存
5、Impala不提供任何对序列化和反序列化的支持。
6、Impala只能读取文本文件,而不能读取自定义二进制文件。
7、每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新。