数据迁移当然可以使用sqoop,但是我使用的时候发现配置不当有很多错误,使用起来很麻烦,于是自己就用了最原始的方法来迁移数据,熟练步骤了其实也很快,给大家一个参考

一、迁移一张表

查看表结构:desc table tb1;

查看建表sql语句:show create tabletb1;

1.同一个数据仓库中复制表和数据,使用CTAS语句;

常用的三种方案:

a.完全复制拷贝:

create table tb2 as select * from tb1;

b.拷贝时修改存储格式:

CREATE TABLE http_ORC STORED AS ORC as select *from int_s1u_http_17543_t where p_app=1;

c.拷贝时修改存储格式并压缩数据:

CREATE TABLE http_parquet STORED AS parquetTBLPROPERTIES ("parquet.compress"="GZIP") as select * fromint_s1u_http_17543_t where p_app=1;

存储格式可以修改其他的如:

SEQUENCEFILE、AVRO、parquet、textfile

压缩算法:

LZO、GZIP、ZIPPY、SNAPPY、LZIP

 

其他方案:

先复制表结构:

create table tb2 like tb1;

再插入数据:

insert overwrite into tb2 select * from tb1;

 

2.跨节点、跨数据仓库复制一张表:

a.先输入show create table tb1;获取到建表sql,复制一下再修改表名重新执行一遍即可生成新表。或者先手动创建表:

CREATE TABLE `test`(`id` int, `name` string)rowformat delimited fields terminated by ',' stored as textfile;

再手动导入数据: load data local inpath  '/root/db' into table test;

 

如果是分区表:

create table tb2(sid int,sname String)partioned by (p_app String) row format delimited fields terminated by ',';

导入到指定分区:load data local inpath  '/root/http.txt'  into table tb2 partition(p_app='9');

 

其他格式的建表语句如:CREATE TABLE parquet_test ( id int,name string)

PARTITIONED BY (part string)

STORED AS PARQUET [tblproperties("orc.compress"="NONE")];

[ ]为可选的内容

只需要把STORED AS PARQUET;修改为其他的格式即可,如STORED AS ORC,STORED AS PARQUET。

b.把表的数据导出

hdfs dfs -du -h /user/spark/warehouse/xdrtest1.db

hdfs dfs -get /user/spark/warehouse/xdrtest1.db/http ./

 

c.向新表导入数据

hdfs dfs -put /root/http/* user/hive/warehouse/xdrtest1.db/http

 

注意:如果是分区表,没有指定分区的话会识别不了数据,需要手动注册:

msck repair table http;

show partitions http;会看到分区


二、跨节点、跨数据库迁移数据库里所有的表

1.先把原始数据库的表名全部复制出来

使用脚本:

#!/bin/bash

spark-sql -e "usexdrtest1; show tables;" > tables.txt

得到所有的表名:

pyspark sql 结果保存csv sparksql导出csv_数据

接下来要去掉数据库名字xdrtest1和后面的false:

在vi里面使用字符串替换命令:先按esc键,再输入%s#xdrtest1 # 回车,

再输入 %s# false#回车, 得到只有表名的文件:

pyspark sql 结果保存csv sparksql导出csv_数据迁移_02


2.使用脚本把每张表的表结构,也就是建表语句导出来:

#!/bin/bash

cat tables.txt | whileread eachline

do

 spark-sql -e "use xdrtest1; show createtable $eachline" >> tb2.txt

done

得到所有表的创建sql脚本tb2.txt:

pyspark sql 结果保存csv sparksql导出csv_spark sql_03

注意:每个表的sql后面没有分号,需要手动添加;

3.重建一个数据库,并导入表结构

在另外一个地方先手动创建一个同名数据库:

create database xdrtest1;


pyspark sql 结果保存csv sparksql导出csv_spark sql_04



再导入建表脚本:

source/root/lz/tb2.txt;

pyspark sql 结果保存csv sparksql导出csv_数据迁移_05


至此,表结构就全部复制成功了,输入show tables;查看所有表:

pyspark sql 结果保存csv sparksql导出csv_pyspark sql 结果保存csv_06

4.下载数据

先在HDFS上对应的数据仓库库目录里把文件下载下来:

输入hdfsdfs -du -h /user/spark/warehouse/xdrtest1.db,查看每个表的大小情况


再输入hdfs dfs -get/user/spark/warehouse/xdrtest1.db,把数据下载下来(如果数据量很大的话会很慢)

查看数据大小:du -hs/root/xdrtest1.db/

pyspark sql 结果保存csv sparksql导出csv_数据_07

5.传输数据

先将数据打包,tar zcvf xdrtest1.tar.gz/root/xdrtest1.db

(解压tar zxvf xdrtest1.tar.gz)

再用wincp或者其他方式传输数据到另外一个环境中,再解压到linux本地文件系统中。

#压缩

tar -czvf ***.tar.gz

tar -cjvf ***.tar.bz2

#解压缩

tar -xzvf ***.tar.gz

tar -xjvf ***.tar.bz2

压缩打包后数据:由之前的220M变成51M


pyspark sql 结果保存csv sparksql导出csv_spark sql_08


6.数据导入

使用脚本将数据导入:

#!/bin/bash

dir=$(ls -l/root/lz/xdrtest |awk '/^d/ {print $NF}') #遍历所有目录名

for i in $dir

do

echo $i

#spark-sql -e "use xdrtest1;load data local inpath /root/xdrtest1.db/$i/*  into table$i;"

hdfs dfs -put/root/lz/xdrtest/$i/* /user/hive/warehouse/xdrtest1.db/$i

echo "hdfs dfs -put/root/lz/xdrtest/$i/* /user/hive/warehouse/xdrtest1.db/$i"  

done

 

注意:

hdfs dfs -put /root/http/*user/hive/warehouse/xdrtest1.db/http是将文件直接放到对应表的目录下;


而load datalocal inpath  '/root/http/*'  into table http;是用sql语句去导入表,这个每次都要use xdrtest1;。