Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。

01

sqoop工作机制


将导入或导出命令翻译成 MapReduce 程序来实现 在翻译出的 MapReduce 中主要是对 InputFormat 和 OutputFormat 进行定制。

02

sqoop核心功能


sqoop核心的功能有两个:

(1)导入、迁入

导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统

(2)导出、迁出

导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HDFS,Hive 相比,并没有什么高深的理论。



sqoop从mysql导入到mysql sqoop导出数据到mysql_Hadoop

03

课程简介


好程序员sqoop高级课程介绍

1、课程简介:

本课程涵盖sqoop的概念、数据导入(import)、数据导出(export)、增量数据同步、多种增量同步方案、增量更新导出、sqoop的job定义、sqoop的job操作等知识点。该课程覆盖范围广,同时该课程是数据同步技术中一套亮眼课程,你值得拥有。

2、课程价值:

学完完全掌握数据增量同步技术、掌握插入更新导出、掌握导入数据为parquet格式、掌握parquet格式数据导出到关系型数据库等。

3、适用人群:

适用于大数据从业者、数仓从业者、ETL从业者和对大数据技术感兴趣的初学人员等等。

4、课程亮点:

增量同步方案、同步为parquet格式、增量更新导出、parquet格式数据导出、sqoop优化、sqoop并发等

好程序员大数据-sqoop高级课程学习路线图

01 同步工具来源

02 sqoop的定义

03 sqoop的安装

04 sqoop列出库和表

05 sqoop导入数据到hdfs目录

06 sqoop的导入指定列指定分隔符指定空值处理

07 sqoop导入指定文件格式和压缩

08 sqoop的导出及注意事项

09 sqoop高级之导入数据到hive中

10 sqoop高级之导入数据到hive的分区表中

11 sqoop的job相关命令和免密

12 sqoop高级之更新并插入导出到mysql中

13 sqoop高级之导出parquet格式数据到mysql中

14 sqoop高级之使用脚本进行定时任务

15 回顾

16 作业

17 sqoop的自增场景描述

18 sqoop增量之query where语句

19 sqoop增量之append语句

20 sqoop增量之lastmodified语句

21 sqoop的优化

好程序员大数据sqoop精讲第1集