背景
产品要我更新一个月以前的增量数据(每天一个分区,累计起来的)mmp 写个循环脚本,重新跑。。。
#!/usr/bin/env bash
start_date="$1"
end_date="$2"
task_job="$3"
while [ ${start_date} -le ${end_date} ]
do
echo "${start_date}"
python /data/apps/${task_job} -d ${start_date}
start_date=`date -d "${start_date} +1 day" +%Y%m%d`
done
以上这种方式比较耗时效率低,好在hive有动态分区可以解决这个问题
-- 批量删除分区数据
alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >="20191101",dt <='20191130')
-- 开启动态分区
SET hive.exec.dynamic.partition=true; --开启动态分区,默认是false
SET hive.exec.dynamic.partition.mode=nonstrict; --开启允许所有分区都是动态的,否则必须要有静态分区才能使用
-- 省略了部分表和字段
insert overwrite table dm.dm_call_gateway_bill_time_detail
partition(dt) --分区字段
SELECT date_format(t.START_TIME,'yyyy-MM-dd') AS p_date,
g.gateway_name,
t.end_time,
-- 以上是表字段
date_format(t.START_TIME,'yyyyMMdd') as dt
--最后一个字段为动态分区字段
FROM ods_fdm.fdm_call_transaction t -- 全量表
WHERE t.dt = '${p_date}'
AND date_format(t.START_TIME,'yyyyMMdd') >= '20191101'
AND date_format(t.START_TIME,'yyyyMMdd') <= '20191130';
要点:因为dm.dm_call_gateway_bill_time_detail表中只有3个字段,所以当我们查询了4个字段时(多了dt字段,名字任意),所以系统默认以最后一个字段dt为分区名,因为分区表的分区字段默认也是该表中的字段,且依次排在表中字段的最后面。
所以分区需要分区的字段只能放在最后面
,不能把顺序弄错。如果我们查询5个字段的话,则会报
错,因为该表加上分区字段也才4个。要注意系统是根据查询字段的位置推断
分区名的,而不是字段名称。
SHOW PARTITIONS dm.dm_call_gateway_bill_time_detail;
45 dt=20191101
46 dt=20191102
47 dt=20191103
....
73 dt=20191129
74 dt=20191130
...
- 多个分区字段时,实现半自动分区(部分字段静态分区,注意静态分区字段要在动态前面)
1.创建一个只有一个字段,两个分区字段的分区表
hive (fdm_sor)> create table ds_parttion(id int )
> partitioned by (state string ,ct string );
2.往该分区表半动态分区插入数据
hive>
set hive.exec.dynamici.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table ds_parttion
partition(state='china',ct) #state分区为静态,ct为动态分区,以查询的city字段为分区名
select id ,city from mytest_tmp2_p;
3.查询结果显示:
hive (fdm_sor)> select * from ds_parttion where state='china';
ds_parttion.id ds_parttion.state ds_parttion.ct
4 china beijing
3 china beijing
2 china beijing
1 china beijing
4 china beijing1
3 china beijing1
2 china beijing1
1 china beijing1
hive (fdm_sor)> select * from ds_parttion where state='china' and ct='beijing';
ds_parttion.id ds_parttion.state ds_parttion.ct
4 china beijing
3 china beijing
2 china beijing
1 china beijing
hive (fdm_sor)> select * from ds_parttion where state='china' and ct='beijing1';
ds_parttion.id ds_parttion.state ds_parttion.ct
4 china beijing1
3 china beijing1
2 china beijing1
1 china beijing1
Time taken: 0.072 seconds, Fetched: 4 row(s)
- 多个分区字段时,全部实现动态分区插入数据
set hive.exec.dynamici.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table ds_parttion
partition(state,ct)
select id ,country,city from mytest_tmp2_p;
注意:字段的个数和顺序不能弄错
- 动态分区表的属性
使用动态分区表必须配置的参数 :
set hive.exec.dynamic.partition =true(默认false),表示开启动态分区功能
set hive.exec.dynamic.partition.mode = nonstrict(默认strict),表示允许所有分区都是动态的,否则必须有静态分区字段
动态分区相关的调优参数:
set hive.exec.max.dynamic.partitions.pernode=100 (默认100,一般可以设置大一点,比如1000)
表示每个maper或reducer可以允许创建的最大动态分区个数,默认是100,超出则会报错。
set hive.exec.max.dynamic.partitions =1000(默认值)
表示一个动态分区语句可以创建的最大动态分区个数,超出报错
set hive.exec.max.created.files =10000(默认)
全局可以创建的最大文件个数,超出报错。