目录
- har小文件归档
- hive调优参数
- hive 调优
- 扩展优化
- 动态分区属性
- 数据建模 维度建模
har小文件归档
--用来控制归档是否可用
set hive.archive.enabled=true;
--通知Hive在创建归档时是否可以设置父目录
set hive.archive.har.parentdir.settable=true;
--控制需要归档文件的大小
set har.partfile.size=1099511627776;
--使用以下命令进行归档:
ALTER TABLE A ARCHIVE PARTITION(dt='2021-05-07', hr='12');
--对已归档的分区恢复为原文件:
ALTER TABLE A UNARCHIVE PARTITION(dt='2021-05-07', hr='12');
hive调优参数
set hive.map.aggr=true; -- 开启 map 端 combiner
-- 输出合并小文件常用参数
SET hive.merge.mapfiles = true; -- 默认 true,在 map-only 任务结束时合并小文件
SET hive.merge.mapredfiles = true; -- 默认 false,在 map-reduce 任务结束时合并小文件
SET hive.merge.size.per.task = 268435456; -- 默认 256M
SET hive.merge.smallfiles.avgsize = 16777216; -- 当输出文件的平均大小小于 16m 该值时,启动一个独立的 map-reduce 任务进行文件 merge
set hive.fetch.task.conversion=more; -- 让可以不走mapreduce任务的,就不走mapreduce任务
set hive.exec.parallel=true;-- 开启任务并行执行 当一个sql中有多个job时候,且这多个job之间没有依赖,则可以让顺序执行变为并行执行(一般为用到union all的时候)
set hive.exec.parallel.thread.number=8;-- 同一个sql允许并行任务的最大线程数
set mapred.job.reuse.jvm.num.tasks=10; -- 设置jvm重用 JVM重用对hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短。jvm的启动过程可能会造成相当大的开销,尤其是执行的job包含有成千上万个task任务的情况。
set mapred.reduce.tasks = 20-- 直接设置reduce数量
set hive.map.aggr=true -- map端聚合,降低传给reduce的数据量
set hive.groupby.skewindata=true -- 开启hive内置的数倾优化机制
hive 调优
hive底层的mapreduce计算引擎的调优,sql的调优,数据倾斜调优,小文件问题的调优,考虑数据本身的问题
eg1 : count(distinct age) 去重之后的年龄是很少的
-- distinct的命令会在内存中构建一个hashtable,查找去重的时间复杂度是O(1);
-- group by在不同版本间变动比较大,有的版本会用构建hashtable的形式去重,有的版本会通过排序的方式, 排序最优时间复杂度无法到O(1)。另外,第一种方式(group by)去重会转化为两个任务,会消耗更多的磁盘网络I/O资源。
-- 最新的Hive 3.0中新增了 count(distinct) 优化,通过配置 hive.optimize.countdistinct,即使真的出现数据倾斜也可以自动优化,自动改变SQL执行的逻辑。
-- 第二种方式(distinct)比第一种方式(group by)代码简洁,表达的意思简单明了,如果没有特殊的问题,代码简洁就是优!
select count(distinct col) from a;
select count(1) from (select col from a group by col) as t;
-- 推测执行优化 开启两个任务看那个先结束
set hive.mapred.map.tasks.speculative.execution=false
set hive.mapred.reduce.tasks.speculative.execution=false
set mapred.map.tasks.speculative.execution=false;
set mapred.reduce.tasks.speculative.execution=false;
--hivemap数和reduce的个数如何确定
a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数
b)假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m,20m,128m,2m),从而产生4个map数
即,如果文件大于块大小(128m),那么会拆分,如果小于块大小,则把该文件当成一个块。
有多少个reduce,就会有多少个输出文件
扩展优化
如果表a只有一个文件,大小为120M,但包含几千万的记录,如果用1个map去完成这个任务,肯定是比较耗时的,这种情况下,我们要考虑将这一个文件合理的拆分成多个,这样就可以用多个map任务去完成。
set mapreduce.job.reduces =10;
create external table a_1 as
select * from stg_data.users
distribute by CAST(RAND() *10 AS INT);
select CAST(RAND() *10 AS INT);
这样会将a表的记录,随机的分散到包含10个文件的a_1表中,再用a_1代替上面sql中的a表,则会用10个map任务去完成。
每个map任务处理大于12M(几百万记录)的数据,效率肯定会好很多。
-- 控制map和reduce的个数
原则: 使大数据量利用合适的map数;使单个map任务处理合适的数据量
一个是要合并小文件,一个是要把大文件拆成小文件。
控制hive任务的map数
通过以下方法来在map执行前合并小文件,减少map数:
set hive.hadoop.supports.splittable.combineinputformat=true;
-- 执行map前进行小文件合并
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapred.min.split.size=100000000;
set mapred.max.split.size=100000000;
-- 一个节点上split的至少的大小 ,决定了多个data node上的文件是否需要合并
set mapred.min.split.size.per.node=50000000;
-- 一个交换机下split的至少的大小,决定了多个交换机上的文件是否需要合并
set mapred.min.split.size.per.rack=50000000;
参数解释
100000000表示100M
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;这个参数表示执行前进行小文件合并
mapred.min.split.size相当于mapreduce.input.fileinputformat.split.minsize,设置哪一个都一样
mapred.max.split.size相当于mapreduce.input.fileinputformat.split.maxsize,设置哪一个都一样
所以根据求splitSize的公式,return Math.max(minSize, Math.min(maxSize, blockSize));
可以知道,需增加mapper数,则减少这些值;需减少mapper数,则增加这些值,一般就配置这两个值就行了。
一般来说
max.split.size >= min.split.size >= min.size.per.node >= min.size.per.node
优先级
当四个参数设置矛盾时,系统会自动以优先级最高的参数为准,进行计算
max.split.size <= min.split.size <= min.size.per.node <= min.size.per.node
2 结果合并,下面的数值需自行调整
set hive.merge.mapfiles=true; --在Map-only的任务结束时合并小文件
set hive.merge.mapredfiles=true; --在Map-Reduce的任务结束时合并小文件
set hive.merge.size.per.task=128000000; --合并后文件的大小为128M左右
set hive.merge.smallfiles.avgsize=128000000; --当输出文件的平均大小小于128M时,启动一个独立的map-reduce任务进行文件merge
控制hive任务的reduce数
-- 控制hive任务的reduce数
reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:
hive.exec.reducers.bytes.per.reducer--(每个reduce任务处理的数据量,默认为1000^3=1G)
hive.exec.reducers.max --(每个任务最大的reduce数,默认为999)
-- eg:
输入数据量 130M
每个reduce处理的数据量 64M
reduce个数:reducer数=min(1099,130m/64m)=3
有多少个reduce,就会有多少个输出文件
-- 调整reduce个数:
-- 调整hive.exec.reducers.bytes.per.reducer参数的值;
set hive.exec.reducers.bytes.per.reducer=500000000; (500M)
-- 直接设置reduce的值
set mapred.reduce.tasks = 15;
使大数据量利用合适的reduce数;使单个reduce任务处理合适的数据量
动态分区属性
动态分区属性:设置为true表示开启动态分区功能(默认为false)
hive.exec.dynamic.partition=true;
动态分区属性:设置为nonstrict,表示允许所有分区都是动态的(默认为strict) 设置为strict,表示必须保证至少有一个分区是静态的
hive.exec.dynamic.partition.mode=strict;
动态分区属性:每个mapper或reducer可以创建的最大动态分区个数
hive.exec.max.dynamic.partitions.pernode=100;
动态分区属性:一个动态分区创建语句可以创建的最大动态分区个数
hive.exec.max.dynamic.partitions=1000;
动态分区属性:全局可以创建的最大文件个数
hive.exec.max.created.files=100000;
数据建模 维度建模
星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星形模式的维度建模由一个事实表和一组维表成,
a. 维表只和事实表关联,维表之间没有关联;
b. 每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键;
c. 以事实表为核心,维表围绕核心呈星形分布。
雪花模型
雪花模式(Snowflake Schema)是对星型模式的扩展。雪花模式的维度表可以拥有其他维度表的,虽然这种模型相比星型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要关联多层维表,性能比星型模型要低。
星座模型
星座模式是星型模式延伸而来,星型模式是基于一张事实表的,而星座模式是基于多张事实表的,而且共享维度信息。前面介绍的两种维度建模方法都是多维表对应单事实表,但在很多时候维度空间内的事实表不止一个,而一个维表也可能被多个事实表用到。在业务发展后期,绝大部分维度建模都采用的是星座模式。
[map,reduce优化]: https://blog.csdn.net/qq_46893497/article/details/113864209
```sql
order by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。
sort by不是全局排序,其在数据进入reducer前完成排序,如果设置mapred.reduce.tasks>1, 则sort by只保证每个reducer的输出有序,不保证全局有序。
Distribute by:按照指定的字段对数据进行划分输出到不同的reduce中。
Cluster by:除了具有 distribute by 的功能外还兼具 sort by 的功能。
UDF:单行进入,单行输出
UDAF:多行进入,单行输出
UDTF:单行输入,多行输出
sum_data(聚合)
ods_data()
pdm_data()