文章目录
- 前言
- 一、Hadoop安装
- 二、常用命令
- 1. 启动命令
- 2. 关闭命令
- 3. 查看目录
- 4. 网页查看
- 5. 查看HDFS目录下文件大小
- 6. HDFS集群
- 7. 集群其中某个节点在webui上无法显示
- 总结
- 7. start-dfs.sh和start-yarn.sh区别
前言
一、Hadoop安装
安装这里不介绍了,网上一堆。
假设安装目录: /hadoop-2.7.7/
二、常用命令
1. 启动命令
hadoop-2.7.7/sbin/start-dfs.sh
使用jps命令查看,会查看到nameNode启动,如下:
登录其他节点,查看dataNode 进程已经启动。
2. 关闭命令
hadoop-2.7.7/sbin/stop-dfs.sh
使用jps命令查看,会查看到nameNode关闭,如下:
登录其他节点,查看dataNode 进程已经关闭。
3. 查看目录
hadoop-2.7.7/hdfs dfs -ls /
可以查看到创建到新的数据目录。
或者
hdfs dfs -ls /
4. 网页查看
在本地的浏览器输入namenode节点服务器的ip+端口就可以。
例如:168.1.1.100:90000/
例如:168.1.1.100:50070/
5. 查看HDFS目录下文件大小
hadoop fs -du hdfs://ip:9000/HiBench/Pagerank/Input | awk ‘{sum+=$1} END{print sum/(1024*1024*1024)}’
HDFS目录:hdfs://ip:9000/HiBench/Pagerank/Input
汇总文件大小的单位为GB: sum/(102410241024)
汇总文件大小的单位为MB: sum/(1024*1024)
查看hdfs目录
hadoop fs -ls /
看到hdfs下有SparkBench目录
查看hdfs各目录所占空间大小
hadoop fs -du -h /
看到hdfs下有SparkBench目录占用大小为37.2GB。
6. HDFS集群
HDFS是Hadoop应用用到的一个最主要的分布式存储系统。一个HDFS集群主要由一个NameNode和很多个Datanode组成:Namenode管理文件系统的元数据,而Datanode存储了实际的数据。
其中一个节点发生故障,硬盘坏了,造成hdfs集群无法启动, 但是hadoop有灾备机制(Hdfs默认是3个副本。),如果一个节点挂了问题应该不大。
1) 这时候更改hdfs集群的节点数量,将坏了的节点信息从配置文件中移除掉。
127.0.0.1 localhost
192.168.0.1 master LENOVO1920
192.168.0.11 slave1 LENOVO1921
192.168.0.12 slave2 LENOVO1922
Host中ip移除故障节点。如slave2节点故障,从host文件中删除192.168.0.12 slave2 LENOVO1922即可。
7. 集群其中某个节点在webui上无法显示
**现象:**Hadoop集群中slave3节点没显示。
**原因:**master上的host文件没配置对
**修改方法:**修改master上的hosts文件修改。重启hadoop集群即可。
注意的是,hadoop集群的slaves文件最好hostname(当前配置为ip),hadoop集群一般考虑hostname(非ip)作为唯一标识。
配置hadoop时,最好使用host+hostname的配置方式,这样集群注册时,可以解析DataNode。
#cat /etc/hosts 显示配置
127.0.0.1 localhost
192.168.0.1 master LENOVO1920
192.168.0.11 slave1 LENOVO1921
192.168.0.12 slave2 LENOVO1922
总结
仅此记录。
注意:
- 当hadoop集群其中一个节点(如slave3)发生故障,造成hdfs集群无法启动。但是hadoop有灾备机制(Hdfs默认是3个副本),解决方式如下:
通过以下命令更改hdfs集群的节点信息,将发生故障的节点信息从配置文件中移除掉。
sudo vim /etc/hosts
7. start-dfs.sh和start-yarn.sh区别
start-dfs.sh 只启动namenode 和datanode
start-yarn.sh 只启动resourcemanager 和nodemanager