一、准备工作
- Linux环境:Centos 7
- 远程登陆:xShell 6
- 安装jdk并配置好环境变量
- 下载 hadoop-3.1.3.tar.gz
二、安装hadoop
1. 把下载好的hadoop-3.1.3.tar.gz 上传到linux 的/usr/local/java目录(可自由选择)
## 进入该目录
cd /usr/local
##切换root用户
su root
## 创建文件夹
mkdir java
2. 解压 hadoop
tar -zxvf hadoop-3.1.3.tar.gz
3. 为hadoop 配置环境变量
## 编辑
vi /etc/profile
## 在该文件末尾加入
export HADOOP_HOME=/usr/local/java/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
## 刷新
source /etc/profile
4. 修改配置文件
cd /usr/local/java/hadoop-3.1.3/etc/hadoop
4.1 编辑 hadoop-env.sh
vi hadoop-env.sh
找到# export JAVA_HOME=,按i进入编辑模式,修改为以下内容后,按Esc,输入 :wq 保存并退出
export JAVA_HOME=/usr/local/java/jdk1.8.0_301
4.2 配置core-site.xml,修改为以下内容,其中第5行 192.168.199.133 改为自己的主机名
<configuration>
<!--设置namenode所在节点 192.168.199.133 需要改成自己的ip-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.199.133:9000</value>
</property>
<!--
设置hadoop存放数据的目录, 需要手动创建data文件夹
-->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/java/hadoop-3.1.3/data</value>
</property>
</configuration>
4.3 配置yarn-site.xml,修改为以下内容,192.168.199.133 均改为自己的主机名
<configuration>
<!-- 指定ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>192.168.199.133</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>192.168.199.133:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>192.168.199.133:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>192.168.199.133:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>192.168.199.133:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>192.168.199.133:8088</value>
</property>
<!-- 指定reducer获取数据的方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
4.5 配置hdfs-site.xml,修改为以下内容
<configuration>
<!--设置block副本数,不能超过节点数-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
4.6 配置mapred-site.xml,修改为以下内容
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
5. 配置start-dfs.sh,stop-dfs.sh
切到hadoop/sbin这个目录配置
cd /usr/local/java/hadoop-3.1.3/sbin
5.1 在start-dfs.sh,stop-dfs.sh第二行添加以下内容,因为是root登录的,不配置会出现错误
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
6. 配置start-yarn.sh,stop-yarn.sh,在第二行添加以下内容
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
7. 实现SSH免密码远程登录,因为是伪分布式集群,其实就是自己登录自己(如果已经配置过可跳过)
7.1 创建公钥/私钥,一路回车
ssh-keygen -t rsa
7.2 创建authorized_keys文件并修改权限为600
cd ~/.ssh
touch authorized_keys
chmod 600 authorized_keys
7.3 将公钥追加到authorized_keys文件中
cat id_rsa.pub >> authorized_keys
7.4 尝试能否免密登录,能登陆就成功了,尝试后,输入exit退出
ssh 自己的主机名
7.5 关闭防火墙(如果已经配置过可跳过)
##查看防火墙状态
firewall-cmd --state
## 关闭防火墙
systemctl stop firewalld.service
##禁止开机时防火墙自启
systemctl disable firewalld.service
8. 格式化&启动&停止hadoop
8.1 格式化hadoop,不要多次格式化。多次格式化会导致DataNode无法正常启动,解决办法在文末
hadoop namenode -format
8.2 启动&停止hadoop
## 启动
start-all.sh
## 关闭
stop-all.sh
8.3 验证是否成功
启动以后可以输入jps,看有没有下面这些进程
16352 NameNode
21362 Jps
16644 SecondaryNameNode
17017 NodeManager
16475 DataNode
16891 ResourceManager
8.4输入netstat -tpnl | grep java,查看是否有9870和8088端口,刚启动需要等待一会儿才能查询到端口,等待时间视虚拟机情况而定
netstat -tpnl | grep java
8.5 可以在浏览器访问ip:9870和ip:8088