优化一:HBase表的优化
- 在建立HBase表时,提前设置好表的数据存放的压缩的方式
- 提前建立region分区
- 设置读取表中的数据不缓存
优化二:Spark程序的优化
优化场景
Spark中有Driver与Executor
Executor执行Task
Executor执行Task的时候,有可能会用到Driver中的数据
那么就需要Driver将数据发送给Executor
Executor中如果要处理不同分区的数据时
每个Task是独立的,那么每个独立的Task都需要一份Driver中发送过来的数据
可以这样计算总的要存放的Driver发送过来的数据所占用的空间
如果Driver发送的数据有1MB大小
现在有1000个分区,那么就要执行1000个互不干扰的Task,那么Driver发送的数据所占用的总的内存空间就是:1000 X 1MB =1000MB
大约就是1个G,占用空间还是较为客观的
优化方式
Spark提供了两种方式来对上面的场景进行优化
方式1:broadcast variables:广播变量
使用广播变量将集合类别 广播出去:将数据发送到每一个Executor里面
在每一个Executor中会独立出一块空间,单独存放该数据
该数据为所有Task共享,只读的
这样,哪怕每一个Executor要执行上百个Task
要存放的数据也只有一份
方式2:accumulators:累加器
优化三:向HBASE表中存储数据的时候的优化
向HBase中加载数据时,有两种方法
方法1:使用put方式
使用put方式存储数据的过程较为复杂,但也是正规的方法
1:将要写入的数据先存放到WAL(预写日志文件中)
2:再将数据存放到对应的region的列簇中的MemoryStore中
3:当MemoryStore存放数据到一定程度时,将文件写入到HDFS文件中
4:形成StoreFile(HFile)文件
在第二步时,可以使用刷新操作,强制将数据写入到HDFS中
方法2:将数据直接存放到HDFS中
该方法会将数据文件生成HFile直接存放到HDFS中
使用该方法要预先建立好HBase表
存放到HDFS中后,可以将数据文件直接加载到HBase表中了
该方法相对于方法一来说,是非常快的