目标

将本地表导入hive中,并完成一系列的查询

我这里一共有四个表,分别是 movies ratings tags links,分别如下

hivesql中lead随机匹配 hive随机选择20条数据_mysql

一、在HDFS中创建文件夹

hivesql中lead随机匹配 hive随机选择20条数据_HDFS_02

二、将本地的四张表上传到新建文件夹中,并检验是否成功导入

hivesql中lead随机匹配 hive随机选择20条数据_HDFS_03

hivesql中lead随机匹配 hive随机选择20条数据_hive_04

三、在hive中创表,并将数据导入

1.查有哪些数据库,接着创建新的数据库,并使用相应数据库

hivesql中lead随机匹配 hive随机选择20条数据_hive_05

2.创表并导入数据

(1.1)创建第一个表 movie表

hivesql中lead随机匹配 hive随机选择20条数据_数据分析_06

(1.2)将HDFS中movie文件的数据导入 movie表中,并查看前10条数据检验结果

hivesql中lead随机匹配 hive随机选择20条数据_hivesql中lead随机匹配_07

(1.3)查询出movie表中有多少条数据 用count计数

hivesql中lead随机匹配 hive随机选择20条数据_hive_08

(2.1)创建第二个表 ratings表,同时将HDFS中ratings文件的数据导入 ratings表中

hivesql中lead随机匹配 hive随机选择20条数据_hive_09

(2.2)查看前10条数据检验结果

hivesql中lead随机匹配 hive随机选择20条数据_数据分析_10

(3.1)创建第三个表 tags表,同时将HDFS中tags文件的数据导入 tags表中,并查看前10条数据检验结果

hivesql中lead随机匹配 hive随机选择20条数据_hivesql中lead随机匹配_11

(4.1)创建第四个表 links表,同时将HDFS中tags文件的数据导入 links表中,并查看前10条数据检验结果

hivesql中lead随机匹配 hive随机选择20条数据_HDFS_12

零散知识点补充(趁老师讲的时候拍的)

hivesql中lead随机匹配 hive随机选择20条数据_hivesql中lead随机匹配_13

hivesql中lead随机匹配 hive随机选择20条数据_hivesql中lead随机匹配_14

hivesql中lead随机匹配 hive随机选择20条数据_hivesql中lead随机匹配_15

## 用substring截取movie表中title列的年份

hivesql中lead随机匹配 hive随机选择20条数据_hive_16

hivesql中lead随机匹配 hive随机选择20条数据_mysql_17

将截取出来的年份数据加上原先的数据一起装入一个新表中(最后一列为年份数据)

hivesql中lead随机匹配 hive随机选择20条数据_hive_18

hivesql中lead随机匹配 hive随机选择20条数据_HDFS_19