目录

一、启动和关闭Hadoop集群

1、主节点上启动hadoop集群

1.1、启动hdfs服务 

 1.2、启动yarn服务

2、主节点上停止Hadoop集群 

二、Hadoop集群的测试 

1、通过UI界面查看Hadoop运行状态 

2、hadoop2和hadoop3端口区别表 

 3、查看HDFS集群状态

4、查看YARN集群状态 

 三、Hadoop集群初体验 —— 词频统计

1、启动Hadoop集群

2、在虚拟机上准备文件 

3、文件上传到HDFS指定目录 

4、运行词频统计程序的jar包

5、在HDFS集群UI界面查看结果文件

6、在YARN集群UI界面查看程序运行状态

 四、总结复习


一、启动和关闭Hadoop集群

1、主节点上启动hadoop集群

  • 执行start-all.sh命令,一起启动hdfs和yarn服务,也可以分开启动两种服务。

1.1、启动hdfs服务 

  • 执行命令:start-dfs.sh 

Hadoop查看前几个文件 如何查看hadoop的进程_大数据

 

  •  查看master虚拟机上的进程

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop查看前几个文件_02

 

  •  查看slave1虚拟机上的进程

Hadoop查看前几个文件 如何查看hadoop的进程_hdfs_03

 

  • 查看slave2虚拟机上的进程 

Hadoop查看前几个文件 如何查看hadoop的进程_大数据_04

 

 1.2、启动yarn服务

  •  执行命令:start-yarn.sh

 

Hadoop查看前几个文件 如何查看hadoop的进程_大数据_05

  • 启动了YARN守护进程;一个资源管理器(ResourceManager)在master虚拟机上,三个节点管理器(NodeManager)在master、slave1与slave2虚拟机上
  • 执行命令jps查看master虚拟机的进程 

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop_06

 

  • 查看slave1和slave2上的进程,只有NodeManager和DataNode 

Hadoop查看前几个文件 如何查看hadoop的进程_hadoop_07

  

Hadoop查看前几个文件 如何查看hadoop的进程_hdfs_08

2、主节点上停止Hadoop集群 

  • 在master虚拟机上执行命令:stop-all.sh(相当于同时执行了stop-dfs.shstop-yarn.sh) 

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop_09

 

二、Hadoop集群的测试 

1、通过UI界面查看Hadoop运行状态 

  • Hadoop集群正常启动后,它默认开放了两个端口98708088,分别用于监控HDFS集群和YARN集群。通过UI界面可以方便地进行集群的管理和查看,只需要在本地操作系统的浏览器输入集群服务的IP和对应的端口号即可访问。

2、hadoop2和hadoop3端口区别表 

分类

应用

hadoop2的端口

hadoop3的端口

NN ports

NameNode

8020

9820

NN https UI

50470

9871

NN http UI

50070

9870

SNN ports

SNN http

50091

5869

SNN http UI

50090

9868

DN ports

DN IPC

50020

9867

DataNode

50010

9866

DN ports

50475

9865

DN http UI

50075

9864

 3、查看HDFS集群状态

  •  不能通过主机名master加端口9870的方式,原因在于没有在hosts文件里IP与主机名的映射,现在只能通过IP地址加端口号的方式访问:192.168.219.75:9870
  • 注意:访问前需要启动服务,命令:start-all.sh

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop查看前几个文件_10

 

  • 修改宿主机的C:\Windows\System32\drivers\etc\hosts文件,增加hadoop集群主机名与IP地址的映射 

Hadoop查看前几个文件 如何查看hadoop的进程_hadoop_11

 

  •  此时,访问http://master:9870,从图中可以看出HDFS集群状态显示正常。

Hadoop查看前几个文件 如何查看hadoop的进程_大数据_12

 

  • 单击导航条上的【Datanodes】,查看数据节点信息 

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop查看前几个文件_13

 

  • 点开【Utilities】下拉菜单,选择【Browse the file system】 

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop查看前几个文件_14

 

  • 此时HDFS上是空的,因为我们没有上传和创建文件和文件夹

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop_15

 

  • 在HDFS上创建一个目录BigData,执行命令:hdfs dfs -mkdir /BigData 

Hadoop查看前几个文件 如何查看hadoop的进程_hdfs_16

 

  • 在Hadoop WebUI界面查看刚才创建的目录 

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop_17

 

4、查看YARN集群状态 

  • 访问http://192.168.219.75:8088/cluster,从图中可以看出YARN集群状态显示正常 

Hadoop查看前几个文件 如何查看hadoop的进程_大数据_18

 

  • 单击[About]链接 

Hadoop查看前几个文件 如何查看hadoop的进程_hadoop_19

 

 三、Hadoop集群初体验 —— 词频统计

1、启动Hadoop集群

  • 在master虚拟机上执行命令:start-all.sh

Hadoop查看前几个文件 如何查看hadoop的进程_大数据_20

 

2、在虚拟机上准备文件 

  • 在master虚拟机上创建test.txt文件 

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop查看前几个文件_21

 

3、文件上传到HDFS指定目录 

  • 上传test.txt文件到HDFS的/BigData目录(如果没有就创建目录)

Hadoop查看前几个文件 如何查看hadoop的进程_hadoop_22

 

  • 利用HDFS命令查看文件是否上传成功 

Hadoop查看前几个文件 如何查看hadoop的进程_hadoop_23

  • 利用Hadoop WebUI查看文件是否上传成功

Hadoop查看前几个文件 如何查看hadoop的进程_hadoop_24

 

4、运行词频统计程序的jar包

  • 查看Hadoop自带示例的jar包 

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop查看前几个文件_25

  • 执行命令:hadoop jar ./hadoop-mapreduce-examples-3.3.4.jar wordcount /BigData/test.txt /wc_result

Hadoop查看前几个文件 如何查看hadoop的进程_hdfs_26

 

  • 查看输出目录/wc_result,执行命令:hdfs dfs -ls /wc_result

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop_27

 

  • 查看词频统计结果,执行命令:hdfs dfs -cat /wc_result/*

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop_28

 

5、在HDFS集群UI界面查看结果文件

  • 在HDFS集群UI界面,查看/wc_result目录 

Hadoop查看前几个文件 如何查看hadoop的进程_hdfs_29

  • 单击结果文件part-r-00000

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop查看前几个文件_30

 

6、在YARN集群UI界面查看程序运行状态

  • 访问http://192.168.219.75:8088,看到FINISHEDSUCCEEDED 

Hadoop查看前几个文件 如何查看hadoop的进程_Hadoop_31

  • 单击应用标识application_1667989977355_0001,查看应用的运行详情

Hadoop查看前几个文件 如何查看hadoop的进程_hadoop_32

 

 四、总结复习

  • 回顾老师所讲内容,并单独进行练习,完成词频统计。