Hadoop 状态查看指南

引言

Hadoop是一个开源的分布式计算平台,用于处理大规模数据集。在Hadoop集群中,了解集群的状态对于调优、监控和故障排除非常重要。本指南将介绍如何使用Hadoop命令和Web界面来查看Hadoop集群的状态。

集群状态查看方法

Hadoop提供了多种方法来查看集群的状态,包括命令行工具和Web界面。

命令行工具

Hadoop集群状态可以使用以下命令行工具来查看:

  1. hadoop dfsadmin -report:此命令用于查看HDFS(Hadoop分布式文件系统)的状态。它提供了有关文件系统容量、已使用容量、剩余容量以及每个数据节点的详细信息。
hadoop dfsadmin -report
  1. hadoop job -list:此命令用于查看正在运行的MapReduce作业的状态。它显示了作业ID、用户、队列名称、作业名称、提交时间、状态以及作业的进度。
hadoop job -list
  1. hadoop job -status <jobId>:此命令用于查看特定MapReduce作业的状态。您需要提供作业ID作为参数。
hadoop job -status job_1234567890_001
  1. yarn application -list:此命令用于查看正在运行的YARN应用程序的状态。它显示了应用程序ID、用户、队列名称、应用程序名称、启动时间、状态以及应用程序的进度。
yarn application -list
  1. yarn application -status <appId>:此命令用于查看特定YARN应用程序的状态。您需要提供应用程序ID作为参数。
yarn application -status application_1234567890_001

Web界面

Hadoop还提供了一些Web界面,用于通过浏览器查看集群的状态。以下是一些常用的Web界面:

  1. Hadoop HDFS状态界面:http://<namenode>:50070/。这个界面提供了有关HDFS状态的详细信息,包括文件系统摘要、节点状况、块和文件的详细信息。

  2. Hadoop YARN集群状态界面:http://<resourcemanager>:8088/。这个界面提供了有关YARN集群状态的详细信息,包括应用程序、节点、队列和容器的信息。

  3. Hadoop MapReduce作业历史界面:http://<jobhistory>:19888/jobhistory。这个界面提供了有关MapReduce作业历史的详细信息,包括作业列表、作业详情、任务和计数器。

示例

以下是如何使用Hadoop命令行工具和Web界面查看集群状态的示例。

命令行工具示例

查看HDFS状态

执行以下命令来查看HDFS的状态:

hadoop dfsadmin -report

命令输出的示例:

Configured Capacity: 100000000000 (93.13 GB)
Present Capacity: 99999369226 (93.12 GB)
DFS Remaining: 99999369216 (93.12 GB)
DFS Used: 10 (10 B)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0

-------------------------------------------------
Datanodes available: 3 (3 total, 0 dead)
Name: 192.168.0.1:50010
Decommission Status: Normal
Configured Capacity: 33333111114 (31.10 GB)
DFS Used: 2 (2 B)
DFS Used%: 0.00%
DFS Remaining: 33333111112 (31.10 GB)
DFS Remaining%: 99.99%
Last contact: Sat Jan 01 00:00:00 CST 2022
查看MapReduce作业状态

执行以下命令来查看正在运行的MapReduce作业的状态:

hadoop job -list

命令输出的示例:

JobId     State    StartTime   UserName    Queue