1 表连接优化
将小表放在前面,
Hive假定查询中最后的一个表是大表。它会将其它表缓存起来,然后扫描最后那个表。因此通常需要将小表放前面,或者标记哪张表是大表:/streamtable(table_name) /
使用相同的连接键
当对3个或者更多个表进行join连接时,如果每个on子句都使用相同的连接键的话,那么只会产生一个MapReduce job。
尽量尽早地过滤数据
减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段。
尽量原子化操作
尽量避免一个SQL包含复杂逻辑,可以使用中间表来完成复杂的逻辑
2 用insert into替换union all
如果union all的部分个数大于2,或者每个union部分数据量大,应该拆成多个insert into 语句,实际测试过程中,执行时间能提升50%。示例参考如下:
insert overwite table tablename partition (dt= …)
select … from ( select … from A
union all
select … from B union all select … from C ) R
where …;
可以改写为:
insert into table tablename partition (dt= …) select … from A WHERE …;
insert into table tablename partition (dt= …) select … from B WHERE …;
insert into table tablename partition (dt= …) select … from C WHERE …;
3 order by & sort by
order by : 对查询结果进行全局排序消耗时间长,需要set hive.mapred.mode=nostrict
sort by : 局部排序,并非全局有序,提高效率。
4 limit 语句快速出结果
一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。有一个配置属性可以开启,避免这种情况—对数据源进行抽样
hive.limit.optimize.enable=true — 开启对数据源进行采样的功能
hive.limit.row.max.size — 设置最小的采样容量
hive.limit.optimize.limit.file — 设置最大的采样样本数
5 本地模式
对于小数据集,为查询触发执行任务消耗的时间>实际执行job的时间,因此可以通过本地模式,在单台机器上(或某些时候在单个进程上)处理所有的任务。
set hive.exec.mode.local.auto=true
当一个job满足如下条件才能真正使用本地模式:
job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)
job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)
job的reduce数必须为0或者1
可用参数hive.mapred.local.mem(默认0)控制child的jvm使用的最大内存数。
6 并行执行
Hive会将一个查询转化为一个或多个阶段,包括:MapReduce阶段、抽样阶段、合并阶段、limit阶段等。默认情况下,一次只执行一个阶段。不过,如果某些阶段不是互相依赖,是可以并行执行的。
项目实战:
处理逻辑比较复杂,会产生多个job,但是job,并不是都是有依赖的,增加并行执行(默认是不并行执行的。)
优化前:处理时间360s左右
优化后:处理时间280s左右
set hive.exec.parallel=true,可以开启并发执行。
set hive.exec.parallel.thread.number=16; //同一个sql允许最大并行度,默认为8。
7 调整mapper和reducer的个数
7.1 Map阶段优化
map个数的主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(默认128M,不可自定义)。参考举例如下:
假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m,20m,128m,2m),从而产生4个map数。即如果文件大于块大小(128m),那么会拆分,如果小于块大小,则把该文件当成一个块。map执行时间:map任务启动和初始化的时间+逻辑处理的时间。
减少map数若有大量小文件(小于128M),会产生多个map,处理方法是:
set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
前面三个参数确定合并文件块的大小,大于文件块大小128m的,按照128m来分隔,小于128m,大于100m的,按照100m来分隔,把那些小于100m的(包括小文件和分隔大文件剩下的)进行合并。
set mapred.max.split.size=256000000;
//一个节点上split的至少的大小(这个值决定了多个DataNode上的文件是否需要合并)
set mapred.min.split.size.per.node=100000000;
//一个交换机下split的至少的大小(这个值决定了多个交换机上的文件是否需要合并)
set mapred.min.split.size.per.rack=100000000;
//执行Map前进行小文件合并
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
7.2 Reduce阶段优化
set mapred.reduce.tasks=?
set hive.exec.reducers.bytes.per.reducer = ?
一般根据输入文件的总大小,用它的estimation函数来自动计算reduce的个数:reduce个数 = InputFileSize / bytes per reducer
8 严格模式
set hive.marped.mode=strict
–防止用户执行那些可能意想不到的不好的影响的查询
比如:
(1)分区表,必须选定分区范围
(2)对于使用order by的查询,要求必须使用limit语句。因为order by为了执行排序过程会将所有的结果数据分发到同一个reducer中进行处理
(3)限制笛卡尔积查询:两张表join时必须有on语句
9 数据倾斜
任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。最长时长远大于平均时长。
原因:
(1)key分布不均匀
(2)业务数据本身的特性
(3)建表时考虑不周
(4)某些SQL语句本身就有数据倾斜复制代码
解决方案:参数调节
set hive.map.aggr=true
10 优化SQL
10.1 where条件优化
优化前(关系数据库不用考虑会自动优化):
select m.cid,u.id from order m join customer u on( m.cid =u.id )where m.dt=‘20180808’;
优化后(where条件在map端执行而不是在reduce端执行):
select m.cid,u.id from (select * from order where dt=‘20180818’) m join customer u on( m.cid =u.id);
优化后的SQL相当于先进行子查询,在map打断执行where条件而不是在reduce端执行;
10.2 count(distinct xx) 优化
优化前:
select count(distinct xx) from tableName;
优化后:
select count(1) from (select distinct xx from tableName) tmp;
优化前的SQL只有一个reduce,而优化后的SQL会产生两个reduce分开执行,降低reduce的工作量。
10.3 union优化
尽量不要使用union (union 去掉重复的记录)而是使用 union all 然后在用group by 去重
10.4 用in 来代替join
如果需要根据一个表的字段来约束另为一个表,尽量用in来代替join .
select id,name from tb1 a join tb2 b on(a.id = b.id);
select id,name from tb1 where id in(select id from tb2); in 要比join 快
还可以根据情况采用left semi join 或者exist 语法。
10.5 减少job数量
消灭子查询内的 group by 、 COUNT(DISTINCT),MAX,MIN。 可以减少job的数量。
10.6 join 优化
Common/shuffle/Reduce JOIN 连接发生的阶段,发生在reduce 阶段, 适用于大表 连接 大表(默认的方式)
Map join : 连接发生在map阶段 , 适用于小表 连接 大表
大表的数据从文件中读取
小表的数据存放在内存中(hive中已经自动进行了优化,自动判断小表,然后进行缓存)
//hive会自动进行MAPJOIN优化
set hive.auto.convert.join=true;