Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
01
sqoop工作机制
将导入或导出命令翻译成 MapReduce 程序来实现 在翻译出的 MapReduce 中主要是对 InputFormat 和 OutputFormat 进行定制。
02
sqoop核心功能
sqoop核心的功能有两个:
(1)导入、迁入
导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统
(2)导出、迁出
导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HDFS,Hive 相比,并没有什么高深的理论。
03
课程简介
好程序员sqoop高级课程介绍
1、课程简介:
本课程涵盖sqoop的概念、数据导入(import)、数据导出(export)、增量数据同步、多种增量同步方案、增量更新导出、sqoop的job定义、sqoop的job操作等知识点。该课程覆盖范围广,同时该课程是数据同步技术中一套亮眼课程,你值得拥有。
2、课程价值:
学完完全掌握数据增量同步技术、掌握插入更新导出、掌握导入数据为parquet格式、掌握parquet格式数据导出到关系型数据库等。
3、适用人群:
适用于大数据从业者、数仓从业者、ETL从业者和对大数据技术感兴趣的初学人员等等。
4、课程亮点:
增量同步方案、同步为parquet格式、增量更新导出、parquet格式数据导出、sqoop优化、sqoop并发等
好程序员大数据-sqoop高级课程学习路线图
01 同步工具来源
02 sqoop的定义
03 sqoop的安装
04 sqoop列出库和表
05 sqoop导入数据到hdfs目录
06 sqoop的导入指定列指定分隔符指定空值处理
07 sqoop导入指定文件格式和压缩
08 sqoop的导出及注意事项
09 sqoop高级之导入数据到hive中
10 sqoop高级之导入数据到hive的分区表中
11 sqoop的job相关命令和免密
12 sqoop高级之更新并插入导出到mysql中
13 sqoop高级之导出parquet格式数据到mysql中
14 sqoop高级之使用脚本进行定时任务
15 回顾
16 作业
17 sqoop的自增场景描述
18 sqoop增量之query where语句
19 sqoop增量之append语句
20 sqoop增量之lastmodified语句
21 sqoop的优化
好程序员大数据sqoop精讲第1集