hive 大表join大表数据倾斜法 hive大小表关联优化

转载

编程小天匠 2023-09-20 05:12:45

文章标签 hive 大表join大表数据倾斜法 hive 大数据 spark 数据倾斜 文章分类 Hive 大数据

1.大小表join（数据倾斜，包括笛卡尔积）优化，小表写在前面（小表大表谁在前区别不大），0.7版本前需要在sql中写/+mapjoin(small_tablename)/，之后版本 set hive.auto.convert.join=true; 即可自动转换，写不写/+mapjoin(small_tablename)/没有区别。

脚本开头写：

set hive.auto.convert.join=true;

set hive.mapjoin.smalltable.filesize=25000000; – 小于25mb为小表

2.Hive除了支持MapReduce计算引擎，还支持Spark和Tez这两种分布式计算引擎。据我观察，跑HQL时，CPU使用率很高，而内存使用率很低（不到30%），可以将一些HQL脚本改为Spark计算引擎。

脚本开头写：

set hive.execution.engine=spark;

3.如果要实现in/exists/like in等，用左半连接替代，效率会有极大提升，但是条件只能写在on后，select where后都不能有关于右表的条件。

LEFT SEMI JOIN

4.在hue中可以使用impala/hive等编辑器，impala与hive的sql基本一致，且impala比hive快很多，若想快速进行交互式数据分析建议用impala。impala与hive区别见下：

4.1展示分区时，impala显示信息更多，包括表大小等；

show partitions xx;

4.2 impala中on可以只有不对等条件，hive不行；

4.3 hive插入数据与表字段类型不一致可隐形转换，impala不行；

4.4 impala中不可以写set配置，hive可以。

5.在hue中使用hive编辑器时，可以配置参数，速度会快很多。

set hive.auto.convert.join=true;

set hive.execution.engine=spark;

用完后不要忘记换回mr，不然会一直占用资源：

set hive.execution.engine=mr;

6.判断数据倾斜：

大量相同的key被分配到一个reduce里，造成一个reduce任务累死，其他reduce闲死。查看进度，长时间停留在99%或100%，只有少量reduce子任务未完成。

7.如有需要，使用sum/count/max/min等UDAF或自定义函数，使表在map端汇总合并优化，减少数据倾斜情况。

8.目前我们使用的是Hive 2.1.1，如果后续升级到2.3（最好3.0）后，可以使用物化视图对一些中间表进行优化。

9.配置汇总：

每个配置参数都要搞清楚什么意思，不要单纯的复制粘贴，也不要投鼠忌器，什么都不加，要根据SQL和表情况选择合适的配置。

set hive.mapred.mode=nonstrict; – 如果为严格，将禁止三种类型的查询，自行百度。

set hive.exec.dynamic.partition=true; – 是否打开动态分区

set hive.exec.dynamic.partition.mode=nonstrict; – 打开动态分区后，使用不严格模式

set hive.auto.convert.join=true; – 是否开启自动转换

set hive.mapjoin.smalltable.filesize=25000000; – 小于25mb 为小表

set hive.exec.parallel=true; – 是否开启并发提交

set hive.execution.engine=spark; – 设置计算引擎为spark，默认mr

– set mapreduce.job.priority=high; – 设置mr job的优先级

– set hive.auto.convert.join=false; – 与下面配套使用

– set hive.ignore.mapjoin.hint=false; – 是否忽略mapjoin hint，当关闭自动转换时手写

– set hive.cli.print.current.db=true; – cli print 显示当前库命令行里用的，跟脚本无关

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：dht网络编程 java java基础网络编程

下一篇：hive null 空值 hive null值处理

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hive 大表join大表数据倾斜法 hive大小表关联优化

hive 大表join大表数据倾斜法 hive大小表关联优化

51CTO博客