Hadoop 集群安装

本篇文章主要介绍了搭建 Hadoop 集群的过程。

  • 环境:
  • 虚拟机 VMware 12.0
  • 集群 CentOS 6.5 (三个节点)

第一步 配置服务器

一个主节点(master)
两个子节点(slaver)

配置三个节点的主机名:

使用 vi 编辑器编辑文件:

vi /etc/sysconfig/network

添加以下内容:

NETWORKING=yes
HOSTNAME=master
NETWORKING=yes
HOSTNAME=slaver1
NETWORKING=yes
HOSTNAME=slaver2

配置 hosts:
打开主节点的hosts文件,要将文件的前两行注释掉 (注释当前主机的信息)并在文件中添加所有hadoop集群的主机信息。

vi /etc/hosts

192.168.175.200   master
192.168.175.201   slaver1
192.168.175.202   slaver2

保存之后,将主节点的hosts分别拷贝到其他两个子节点

scp /etc/hosts root@192.168.175.201:/etc/
scp /etc/hosts root@192.168.175.202:/etc/

然后分别执行(重启服务器也可以不执行下面的语句): /bin/hostsname hostsname
例如:master上执行/bin/hostsname master,使之生效。

配置 SSH 无密码访问

  • 安装 ssh.
    CentOS 6.5 已经默认安装了 ssh. 使用 rpm -qa|grep ssh 检查是否安装了 ssh,没有安装,可以执行 yum install openssh-server 进行安装
  • 生成密钥
    在每个节点执行 ssh-keygen -t rsa 一路回车,产生密钥,执行结束后每个节点的 /root/.ssh/ 目录下会生成两个文件:id_rsa 和 id_rsa.pub,其中前者为私钥,后者为公钥。在主节点上执行:cp id_rsa.pub authorized_keys 会在主节点上生成 authorized_keys 文件,其中包含了 主节点的公钥。
  • 将子节点的公钥拷贝到主节点并添加进 authorized_keys
    将两个子节点的公钥拷贝到主节点上,分别在两个子节点上执行:
scp /root/.ssh/ id_rsa.pub root@master:/root/.ssh/id_rsa_slaver1.pub
scp /root/.ssh/ id_rsa.pub root@master:/root/.ssh/id_rsa_slaver2.pub

然后在主节点上,将拷贝过来的两个公钥合并到authorized_keys文件中去
主节点上执行:

cat id_rsa_slaver1.pub>> authorized_keys
cat id_rsa_slaver2.pub>> authorized_keys

这时主节点的 authorized_keys 文件中包含了所有节点的公钥,将此文件拷贝到各个子节点的 .ssh/ 目录下即可实现各个节点之间的无密码访问。
主节点上用scp命令将authorized_keys文件拷贝到子节点的相应位置

scp authorized_keys root@slaver1:/root/.ssh/
scp authorized_keys root@slaver2:/root/.ssh/

测试:
如在主节点执行 ssh slaver1 看是否可以跳转到 slaver1 节点

安装 JDK

  • 查看系统已经装的jdk:
rpm -qa|grep jdk
  • 卸载jdk:
rpm -e --nodeps java-1.6.0-openjdk-javadoc-1.6.0.0-1.66.1.13.0.el6.x86_64
  • 安装JDK(三台机器都要安装)
    安装在同一位置 /opt/java/jdk1.7.0_72
    下载JDK
    解压JDK : tar -zxvf /opt/java/jdk-7u72-linux-x64.gz
    配置环境变量, 编辑profile文件:
vi /etc/profile

在profile文件末尾添加以下代码:

export JAVA_HOME=/opt/java/jdk1.7.0_72
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib

保存后,使刚才编辑的文件生效:

source /etc/profile

测试是否安装成功:java –version

安装 hadoop

在master主机上安装hadoop
安装位置自定,例如安装在/usr目录下面
下载hadoop包,放在/usr目录下,解压hadoop

tar -zxvf /opt/hadoop/hadoop-2.6.4.tar.gz

在usr下面生成hadoop-2.6.4目录
配置环境变量:

vi /etc/profile

在末尾添加:

export HADOOP_HOME=/usr/ hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin

保存后使新编辑的profile生效:

source /etc/profile

配置 hadoop

配置hadoop配置文件
需要配置的文件的位置为/hadoop-2.6.4/etc/hadoop,需要修改的有以下几个:

hadoop-env.sh
yarn-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves
其中
hadoop-env.sh和yarn-env.sh里面都要添加jdk的环境变量

hadoop-env.sh中

# The java implementation to use.

export JAVA_HOME=/opt/java/jdk1.7.0_72
--------------------------------------

(横线上为新添加的内容,其他的代码是文件中原有的)
# The jsvc implementation to use. Jsvc is required to run secure datanodes
# that bind to privileged ports to provide authentication of data transfer
# protocol.  Jsvc is not required if SASL is configured for authentication of
# data transfer protocol using non-privileged ports.
#export JSVC_HOME=${JSVC_HOME}
yarn-env.sh中

# User for YARN daemons
export HADOOP_YARN_USER=${HADOOP_YARN_USER:-yarn}

# resolve links - $0 may be a softlink
export YARN_CONF_DIR="${YARN_CONF_DIR:-$HADOOP_YARN_HOME/conf}"

# some Java parameters

export JAVA_HOME=/opt/java/jdk1.7.0_72
--------------------------------------
(横线上为新添加的内容,其他的代码是文件中原有的)
core-site.xml中

<configuration>
        <property>
                <name>fs.defaultFS</name>
<!--  master :主节点主机名>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>io.file.buffer.size</name>
                <value>131072</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
<!-- hadoop 的临时文件目录>
                <value>file:/usr/temp</value>
        </property>
        <property>
                <name>hadoop.proxyuser.root.hosts</name>
                <value>*</value>
        </property>
        <property>
                <name>hadoop.proxyuser.root.groups</name>
                <value>*</value>
        </property>
</configuration>
hdfs-site.xml中

<configuration>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
<!--  master :主节点主机名-->
                <value>master:9001</value>
        </property>
        <property>
<!--  主节点的文件保存目录-->
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/dfs/name</value>
        </property>
        <property>
<!--  子节点的文件数据的本地保存目录-->
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/dfs/data</value>
        </property>
        <property>
<!--  配置副本的数量, 默认是 3-->
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                <name>dfs.webhdfs.enabled</name>
                <value>true</value>
        </property>
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
        <property>
                <name>dfs.web.ugi</name>
                <value> supergroup</value>
        </property>
</configuration>
mapred-site.xml中

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>master:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>master:19888</value>
        </property>
</configuration>
yarn-site.xml中

<configuration>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
                <name>yarn.resourcemanager.address</name>
                <value>master:8032</value>
        </property>
        <property>
                <name>yarn.resourcemanager.scheduler.address</name>
                <value> master:8030</value>
        </property>
        <property>
                <name>yarn.resourcemanager.resource-tracker.address</name>
                <value> master:8031</value>
        </property>
        <property>
                <name>yarn.resourcemanager.admin.address</name>
                <value> master:8033</value>
        </property>
        <property>
                <name>yarn.resourcemanager.webapp.address</name>
                <value> master:8088</value>
        </property>
</configuration>
slaves中

slaver1
slaver2

拷贝hadoop安装文件到子节点

在主节点上执行:

scp -r /usr/hadoop-2.6.4 root@slaver1:/usr
scp -r /usr/hadoop-2.6.4 root@slaver2:/usr

拷贝profile到子节点

在主节点上执行:

scp /etc/profile root@slaver1:/etc/
scp /etc/profile root@slaver2:/etc/

在两个子节点上分别使新的profile生效:

source /etc/profile

格式化主节点的namenode

在主节点上进入hadoop目录,然后执行:

./bin/hadoop namenode –format

新版本用下面的语句不用hadoop命令了

./bin/hdfs namenode –format

提示:successfully formatted表示格式化成功

启动hadoop

主节点上在hadoop目录下执行:

start-all.sh

主节点上jps进程有:

NameNode
SecondaryNameNode
ResourceManager

每个子节点上的jps进程有:

DataNode
NodeManager

进程都正常表示hadoop集群配置成功!

进程报错:

进程中如果没有 namenode,需要重新格式化,在执行格式化之前需要把配置的保存文件的目录 name 和 data 目录删掉,在 hdfs-site.xml 中配置的路径:file/usr/dfs/data;file/usr/dfs/name;注意子节点中的文件目录也要删掉。