hive插数据太慢 hive insert into 慢

转载

ganmaobuhaowan 2023-09-14 15:59:37

文章标签 hive插数据太慢大数据 hive SQL 数据 文章分类 Hive 大数据

1 表连接优化

将小表放在前面，
Hive假定查询中最后的一个表是大表。它会将其它表缓存起来，然后扫描最后那个表。因此通常需要将小表放前面，或者标记哪张表是大表：/streamtable(table_name) /

使用相同的连接键

当对3个或者更多个表进行join连接时，如果每个on子句都使用相同的连接键的话，那么只会产生一个MapReduce job。

尽量尽早地过滤数据

减少每个阶段的数据量，对于分区表要加分区，同时只选择需要使用到的字段。

尽量原子化操作

尽量避免一个SQL包含复杂逻辑，可以使用中间表来完成复杂的逻辑

2 用insert into替换union all

如果union all的部分个数大于2，或者每个union部分数据量大，应该拆成多个insert into 语句，实际测试过程中，执行时间能提升50%。示例参考如下：

insert overwite table tablename partition (dt= …) 　
select … from ( select … from A
union all 　
select … from B 　union all select … from C ) R 　
where …;

可以改写为：

insert into table tablename partition (dt= …) select … from A WHERE …;
insert into table tablename partition (dt= …) select … from B 　WHERE …;
insert into table tablename partition (dt= …) select … from C WHERE …;

3 order by & sort by

order by : 对查询结果进行全局排序消耗时间长,需要set hive.mapred.mode=nostrict
sort by : 局部排序，并非全局有序，提高效率。

4 limit 语句快速出结果

一般情况下，Limit语句还是需要执行整个查询语句，然后再返回部分结果。有一个配置属性可以开启，避免这种情况—对数据源进行抽样

hive.limit.optimize.enable=true — 开启对数据源进行采样的功能
hive.limit.row.max.size — 设置最小的采样容量
hive.limit.optimize.limit.file — 设置最大的采样样本数

5 本地模式

对于小数据集，为查询触发执行任务消耗的时间>实际执行job的时间，因此可以通过本地模式，在单台机器上（或某些时候在单个进程上）处理所有的任务。

set hive.exec.mode.local.auto=true

当一个job满足如下条件才能真正使用本地模式：

job的输入数据大小必须小于参数：hive.exec.mode.local.auto.inputbytes.max(默认128MB)
job的map数必须小于参数：hive.exec.mode.local.auto.tasks.max(默认4)
job的reduce数必须为0或者1
可用参数hive.mapred.local.mem(默认0)控制child的jvm使用的最大内存数。

6 并行执行

Hive会将一个查询转化为一个或多个阶段，包括：MapReduce阶段、抽样阶段、合并阶段、limit阶段等。默认情况下，一次只执行一个阶段。不过，如果某些阶段不是互相依赖，是可以并行执行的。 项目实战：
处理逻辑比较复杂，会产生多个job，但是job，并不是都是有依赖的，增加并行执行（默认是不并行执行的。）
优化前：处理时间360s左右
优化后：处理时间280s左右

set hive.exec.parallel=true,可以开启并发执行。
set hive.exec.parallel.thread.number=16; //同一个sql允许最大并行度，默认为8。

7 调整mapper和reducer的个数

7.1 Map阶段优化

map个数的主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小（默认128M，不可自定义）。参考举例如下：

假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数假设input目录下有3个文件a,b,c,大小分别为10m，20m，130m，那么hadoop会分隔成4个块（10m,20m,128m,2m），从而产生4个map数。即如果文件大于块大小(128m),那么会拆分，如果小于块大小，则把该文件当成一个块。map执行时间：map任务启动和初始化的时间+逻辑处理的时间。

减少map数若有大量小文件（小于128M），会产生多个map，处理方法是：

set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;

前面三个参数确定合并文件块的大小，大于文件块大小128m的，按照128m来分隔，小于128m,大于100m的，按照100m来分隔，把那些小于100m的（包括小文件和分隔大文件剩下的）进行合并。

set mapred.max.split.size=256000000;
//一个节点上split的至少的大小(这个值决定了多个DataNode上的文件是否需要合并)
set mapred.min.split.size.per.node=100000000;
//一个交换机下split的至少的大小(这个值决定了多个交换机上的文件是否需要合并)
set mapred.min.split.size.per.rack=100000000;
//执行Map前进行小文件合并
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

7.2 Reduce阶段优化

set mapred.reduce.tasks=?
set hive.exec.reducers.bytes.per.reducer = ?

一般根据输入文件的总大小,用它的estimation函数来自动计算reduce的个数：reduce个数 = InputFileSize / bytes per reducer

8 严格模式

set hive.marped.mode=strict

–防止用户执行那些可能意想不到的不好的影响的查询
比如：

(1)分区表，必须选定分区范围
(2)对于使用order by的查询，要求必须使用limit语句。因为order by为了执行排序过程会将所有的结果数据分发到同一个reducer中进行处理
(3)限制笛卡尔积查询：两张表join时必须有on语句

9 数据倾斜

任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。
原因：

（1）key分布不均匀
（2）业务数据本身的特性
（3）建表时考虑不周
（4）某些SQL语句本身就有数据倾斜复制代码

hive插数据太慢 hive insert into 慢_hive插数据太慢

解决方案：参数调节

set hive.map.aggr=true

10 优化SQL

10.1 where条件优化

优化前（关系数据库不用考虑会自动优化）：

select m.cid,u.id from order m join customer u on( m.cid =u.id )where m.dt=‘20180808’;

优化后(where条件在map端执行而不是在reduce端执行）：

select m.cid,u.id from （select * from order where dt=‘20180818’） m join customer u on( m.cid =u.id);

优化后的SQL相当于先进行子查询，在map打断执行where条件而不是在reduce端执行；

10.2 count(distinct xx) 优化

优化前：

select count(distinct xx) from tableName;

优化后：

select count(1) from (select distinct xx from tableName) tmp;

优化前的SQL只有一个reduce，而优化后的SQL会产生两个reduce分开执行，降低reduce的工作量。

10.3 union优化

尽量不要使用union （union 去掉重复的记录）而是使用 union all 然后在用group by 去重

10.4 用in 来代替join

如果需要根据一个表的字段来约束另为一个表，尽量用in来代替join .

select id,name from tb1 a join tb2 b on(a.id = b.id);
select id,name from tb1 where id in(select id from tb2); in 要比join 快

还可以根据情况采用left semi join 或者exist 语法。

10.5 减少job数量

消灭子查询内的 group by 、 COUNT(DISTINCT)，MAX，MIN。可以减少job的数量。

10.6 join 优化

Common/shuffle/Reduce JOIN 连接发生的阶段，发生在reduce 阶段， 适用于大表连接大表(默认的方式)

Map join ：连接发生在map阶段， 适用于小表连接大表
大表的数据从文件中读取
小表的数据存放在内存中（hive中已经自动进行了优化，自动判断小表，然后进行缓存）

//hive会自动进行MAPJOIN优化
set hive.auto.convert.join=true;

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android单元测试activity android单元测试网络数据

下一篇：企业架构方法企业架构方法论ea

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯