sqoop是常用的 关系数据库离线同步到数仓的 工具
将 test 表中的前10条数据导 导出来 只要id name 和 teset 这3个字段
数据存在 hdfs 目录 /user/hdfs 下
bin/sqoop import \
--connect jdbc:mysql:// \
--username root \
--password root \
--query 'select id, name,text from test where $CONDITIONS LIMIT 10' \
--target-dir /user/hadoop \
--delete-target-dir \
--num-mappers 1 \
--compress \
--compression-codec org.apache.hadoop.io.compress.SnappyCodec \
--direct \
--fields-terminated-by '\t'
如果导出的数据库是mysql 则可以添加一个 属性 --direct 该属性在导出mysql数据库表中的数据会快一点 执行的是mysq自带的导出功能
2:启动hive 在hive中创建一张表
drop table if exists default.hive_test ;
create table default.hive_test(
id int,
name string,
text string
3:将hdfs中的数据导入到hive中 (导入后,此时hdfs 中原数据没有了)
load data inpath '/user/hadoop' into table default.hive_test ;
4:查询 hive_test 表
select * from hive_test;
1、创建一个文件 vi havetest.sql 编辑文件 vi havetest.sql
use test;
drop table if exists test.hive_test ;
create table test.hive_test(
id int,
name string,
text string
2、在 启动hive的时候 执行 sql脚本
hive -f /root/hivetest.sql
[root@cdh01 ~]# hive -f /root/hivetest.sql
WARNING: Use "yarn jar" to launch YARN applications.
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/jars/log4j-slf4j-impl-2.8.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/jars/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/jars/hive-common-2.1.1-cdh6.3.2.jar!/hive-log4j2.properties Async: false
Time taken: 4.816 seconds
Time taken: 0.19 seconds
Time taken: 0.725 seconds
[root@cdh01 ~]#
3、执行sqoop直接导入hive的功能 IP不能是localhost
sqoop import \
--connect jdbc:mysql://IP:3306/test \
--username root \
--password root \
--table test \
--fields-terminated-by '\t' \
--delete-target-dir \
--num-mappers 1 \
--hive-import \
--hive-database test \
--hive-table hive_test
#(必须参数)sqoop 导入,-D 指定参数,当前参数是集群使用队列名称
sqoop import -D mapred.job.queue.name=q \
#(必须参数)链接mysql jdbs参数 xxxx路径/yy库?mysql的参数(多个参数用&隔开)
#tinyInt1isBit=false这个参数 主要解决 从Sqoop导入MySQL导入TINYINT(1)类型数据到hive(tinyint),数据为null
--connect jdbc:mysql:xxxx/yy?tinyInt1isBit=false \
--username xx --password xx --table xx \
--delete-target-dir \
--as-textfile \
--columns 'id,title' \
--hive-import \
#(必须参数)指定分隔符,和hive 的目标表分隔符一致
--fields-terminated-by '\t' \
--hive-database xx \
--hive-table xx \
#(必须参数)是不是string 为null的都要变成真正为null
--null-string '\\N' --null-non-string '\\N' \
--hive-partition-key dt \
--hive-partition-value $day \
--hive-overwrite \
--num-mappers 1 \
#(必须参数)导入到hive时删除 \n, \r, and \01
-hive-drop-import-delims \
--outdir xxx
--hive-database 库名
--hive-table 表名
--hive-home 重写$HIVE_HOME
--hive-import 插入数据到hive当中,使用hive的默认分隔符
--hive-overwrite 重写插入
--create-hive-table 建表,如果表已经存在,该操作会报错!
--hive-table [table] 设置到hive当中的表名
--hive-drop-import-delims 导入到hive时删除 \n, \r, and \01
--hive-delims-replacement 导入到hive时用自定义的字符替换掉 \n, \r, and \01
--hive-partition-key hive分区的key
--hive-partition-value hive分区的值
--map-column-hive 类型匹配,sql类型对应到hive类型
--query 'select * from test where id >10 and $CONDITIONS' sql语句 $CONDITIONS 必须
[root@cdh01 ~]# sqoop import \
> --connect jdbc:mysql:// \
> --username root \
> --password root \
> --table test \
> --fields-terminated-by '\t' \
> --delete-target-dir \
> --num-mappers 5 \
> --hive-import \
> --hive-database test \
> --hive-table hive_test
hive> select * from hive_test;
1 name1 text1
2 name2 text2
3 name3 text3
4 name4 text4
5 中文 测试
Time taken: 0.668 seconds, Fetched: 5 row(s)
sqoop-list-databases --connect jdbc:mysql:// --username root --password root
sqoop-list-tables --connect jdbc:mysql:// --username root --password root
-- ----------------------------
-- Table structure for `data`
-- ----------------------------
CREATE TABLE `testdata` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`name` char(20) DEFAULT NULL,
-- ----------------------------
-- Records of data
-- ----------------------------
INSERT INTO `testdata` VALUES ('1', '1', '2019-08-28 17:34:51');
INSERT INTO `testdata` VALUES ('2', '2', '2019-08-28 17:31:57');
INSERT INTO `testdata` VALUES ('3', '3', '2019-08-28 17:31:58');
sqoop import \
--connect jdbc:mysql:// \
--username root \
--password root \
--table testdata \
--fields-terminated-by '\t' \
--delete-target-dir \
--num-mappers 1 \
--hive-import \
--hive-database test \
--hive-table testdata
sqoop import --connect jdbc:mysql:// --username root --password root --table testdata --fields-terminated-by '\t' --delete-target-dir --num-mappers 1 --hive-import --hive-database test --hive-table testdata
hive> select * from testdata;
1 1 2019-08-28 17:34:51.0
2 2 2019-08-28 17:31:57.0
3 3 2019-08-28 17:31:58.0
Time taken: 0.192 seconds, Fetched: 3 row(s)
Mysql 插入2条记录
INSERT INTO `testdata` VALUES ('4', '4', '2020-08-28 17:31:57');
INSERT INTO `testdata` VALUES ('5', '5', '2020-08-28 17:31:58');
--last-value 3,意味mysql中id为3的数据不会被导入
sqoop import \
--connect jdbc:mysql:// \
--username root \
--password root \
--table testdata \
--fields-terminated-by '\t' \
--num-mappers 1 \
--hive-import \
--hive-database test \
--hive-table testdata \
--target-dir /user/root/test \
--incremental append \
--check-column id \
--last-value 3
sqoop import --connect jdbc:mysql:// --username root --password root --table testdata --fields-terminated-by '\t' --num-mappers 1 --hive-import --hive-database test --hive-table testdata --target-dir /user/root/test --incremental append --check-column id --last-value 3
hive> select * from testdata;
1 1 2019-08-28 17:34:51.0
2 2 2019-08-28 17:31:57.0
3 3 2019-08-28 17:31:58.0
4 4 2020-08-28 17:31:57.0
5 5 2020-08-28 17:31:58.0
Time taken: 0.192 seconds, Fetched: 5 row(s)
sqoop import \
--connect jdbc:mysql:// \
--username root \
--password root \
--table testdata \
--fields-terminated-by '\t' \
--num-mappers 1 \
--hive-import \
--hive-database test \
--hive-table testdata \
--target-dir /user/root/test \
--incremental lastmodified \
--merge-key id \
--check-column last_mod \
--last-value '2019-08-30 17:05:49'
参数 说明
–incremental lastmodified 基于时间列的增量导入(将时间列大于等于阈值的所有数据增量导入Hadoop)
–check-column 时间列(int)
–last-value 阈值(int)
–merge-key 合并列(主键,合并键值相同的记录)
以上语句使用 lastmodified 模式进行增量导入,结果报错:
错误信息:--incremental lastmodified option for hive imports is not supported. Please remove the parameter --incremental lastmodified
错误原因:Sqoop 不支持 mysql转hive时使用 lastmodified 模式进行增量导入,但mysql转HDFS时可以支持该方式!
使用 --incremental append
sqoop import \
--connect jdbc:mysql:// \
--username root \
--password root \
--table testdata \
--fields-terminated-by '\t' \
--num-mappers 1 \
--hive-import \
--hive-database test \
--hive-table testdata \
--target-dir /user/root/test \
--incremental append \
--merge-key id \
--check-column last_mod \
--last-value '2019-08-30 17:05:49'
hive> select * from testdata;
1 1 2019-08-28 17:34:51.0
2 2 2019-08-28 17:31:57.0
3 3 2019-08-28 17:31:58.0
4 4 2020-08-28 17:31:57.0
5 5 2020-08-28 17:31:58.0
Time taken: 0.192 seconds, Fetched: 5 row(s)
hive> select * from testdata;
1 1 2019-08-28 17:34:51.0
2 2 2019-08-28 17:31:57.0
3 3 2019-08-28 17:31:58.0
4 4 2020-08-28 17:31:57.0
5 5 2020-08-28 17:31:58.0
2 222 2020-08-14 19:13:06.0
3 333 2020-08-14 19:13:04.0
4 4 2020-08-28 17:31:57.0
5 5 2020-08-28 17:31:58.0
Time taken: 0.172 seconds, Fetched: 9 row(s)
由于 HDFS 不支持修改文件,sqoop 的 --incremental
和 --hive-import
不能同时使用,分开进行 import 和 merge 这两个步骤。