hive load导入指定分区 hive load导入数据

转载

kcoufee 2023-09-04 16:56:23

文章标签 hive load导入指定分区 Hive load data insert 分区表数据导入 文章分类 Hive 大数据

1. 内部表、外部表的数据导入

1）load方式进行数据的导入

local :加local代表是从本地（客户端所在本地）导入的，不加的话表示从hdfs导入数据。

① 本地数据导入

外部表不支持 overwrite

load data local inpath '本地路径' [overwrite] into 表名；

这种方式的本质相当于将数据文件上传到了hdfs的hive表的目录底下。（只要hive管理的目录下有数据，都可以被表识别到）

注意：建表手动指定的目录，不同的表一定要指向不同的目录，除非多个表关联同一份数据

② HDFS数据导入

load data inpath '/cds/cs/...' into table 表名。

移动的过程，从hdfs的原始目录移动到hive表存储的hdfs的目录下。

hive的表就是hdfs的一个目录的管理者

2）insert 的方式进行数据插入

① 单条数据插入

insert into table 表名  values(xxx);

先将数据插入到一个临时表中，再将临时表的数据放到需要插入的表中

② 单重数据插入

每次插入多条，每次插入的是一个查询语句的结果

insert into table  表名 select xxx from  xxx;

③ 多重插入（对表扫描一次，将数据插入到多个不同的表|分区中）

from 表名

insert into table 表名   select  * where ...

insert into table 表名   select  * where ...

优化：能使用多重插入的时候，不适用单重插入，能使用单重插入的时候，不使用单条插入。

2.分区表的数据导入

1) 静态分区数据导入

导入的时候需要指定分区名的，分区名手动指定的，写死的名

load方式：（该方式插入分区表数据的时候，不会进行数据检查的，该方式，只会解析前几个字段，分区字段不会被解析，在加载数据的时候，会先创建这个分区）

load data local inpath '' into xxx partition(分区字段='分区名');

注：一定要注意十分确定数据就是这个分区的

insert方式:(可以进行数据校验)----推荐（该方式在进行数据插入的时候一定注意字段对应）

insert into table xxx partition()  values();

insert into table xxx partition() select xxx from xxx;

from xxx
insert into table xxx partition() select xxx where xxx;

多重数据插入：对原始表值扫描一次，但是可以将数据插入到多个分区中。

2) 动态分区数据导入

分区名不是手动指定的，而是根据数据自己生成的

开启动态分区：

set hive.exec.dynamic.partition.mode=nonstrict

insert into table xxx partition(分区字段) select xxxx;

这种当时分区字段没有手动指定，而是根据后面的查询语句来的，所以构面的查询语句必须要把分区字段查询出来。

这种方式是根据查询的分区字段的结果自动生成的分区

3.分桶表的数据导入

分桶表的数据导入只支持insert方式，load方式不支持

insert into table xxx select * from xxx;

运行的过程中启动了对应桶数个reducetask（几个桶对应几个reducetask）

注意：

hive 1.x中reducetask默认只启动一个，需要手动设置
set mapreduce.job.reduces=3
hive 2.x中 mapreduce.job.reduces=-1,即按照实际需求设定。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：spark dataframe差集 spark dataframe groupby agg

下一篇：hive 不支持笛卡尔乘积 hive不支持超时重试机制

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯