一、Hadoop的3中运行模式
1.1、单机模式。安装简单,几乎不用作任何配置,但仅限于调试用途;
1.2、伪分布式模式。在单节点上同时启动namenode、secondary namenode、datanode、JobTracker、TaskTracker 5个进程,模拟分布式运行的各个节点。
1.3、完全分布式模式。正常的Hadoop集群,由多个节点构成。
二、Hadoop-2.6的完全分布式安装模式
2.0、准备文件
(1)Jdk1.7(或其他版本):jdk-7u79-linux-x64.tar.gz
(2)Hadoop安装包:hadoop-2.6.4.tar.gz
可在Apache官方网站或者镜像网站下载Hadoop。
http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.6.4/
下载hadoop-2.6.4-tar.gz后,使用tar解压。
2.1、为虚拟机添加hadoop账号
2.2、安装jdk
export JAVA_HOME=/home/hadoop/jdk1.7
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
此时,虚拟机拷贝多份。
--------------------------拷贝多份虚拟机---------------------------
2.3、修改虚拟机为固定IP地址(每个虚拟机都进行修改)
2.4、配置hostname(每个虚拟机都进行修改)
(1)sudo vim /etc/hostname
每个虚拟机都进行修改,内容分别为(master、slave1、slave2…)
2.5、配置hosts文件(每个虚拟机都进行修改)
sudo vim /etc/hosts,将每台主机的ip地址、主机名都添加进来,该文件的内容如下:
127.0.0.1 localhost
192.168.0.40 master
192.168.0.41 slave1
192.168.0.42 slave2
2.6、重启每个虚拟机
2.7、配置ssh
(1)ssh-keygen -t rsa # 会有提示,都按回车就可以
(2)cd ~/.ssh
(3)cat id_rsa.pub >> authorized_keys # 将本机加入授权
(4)将所有虚拟机的authorized_keys文件的内容,全都合并到一起,然后替换掉所有的authorized_keys文件。
每个虚拟机都进行以上4步操作。
测试:ssh localhost
ssh 127.0.0.1
ssh master
ssh slave1
ssh slave2
问题: ssh: connect to host localhost port 22: Connection refused
解决办法:sudo apt-get install openssh-server // 安装ssh-serve
注意事项:在进行ssh测试时,在这一步:
Are you sure you want to continue connecting (yes/no)?
此时输入:yes,而不能直接按回车,否则会连接失败。
--------------------------部署hadoop-2.6---------------------------
2.8、解压hadoop到某个目录下。并配置环境变量(所有虚拟机都要配置)
(1)sudo vim /etc/profile。输入如下内容:
#hadoop
export HADOOP_HOME=/home/hadoop/hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
(2)source /etc/profile,重新加载环境变量。
9~14步:仅修改一个虚拟机
2.9、修改配置文件 $HADOOP_HOME/etc/hadoop/core-site.xml
该配置文件是hadoop的全局配置文件,下面的内容是配置NameNode的ip地址、监听的端口,以及tmp目录(tmp内容需要修改)。配置该文件的内容如下:
<configuration>
<!--指定namenode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<!--用来指定使用hadoop时产生文件的存放目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoopdata</value>
</property>
</configuration>
属性fs.defaultFS表示NameNode节点地址,由“hdfs://主机名(或ip):端口号”组成。
2.10、修改配置文件 $HADOOP_HOME/etc/hadoop/hdfs-site.xml
该文件是hdfs的配置文件。修改内容如下:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>Master:50090</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hadoop/hdfs/datanode</value>
</property>
</configuration>
(1)属性“dfs.namenode.name.dir”表示NameNode
存储命名空间和操作日志相关的元数据信息的本地文件系统目录,该项默认本地路
径为”/tmp/hadoop-{username}/dfs/name”;
(2)属性”dfs.datanode.data.dir“表示DataNode节点存储HDFS
文件的本地文件系统目 录,由”file://本地目录”组成,该项默认本地路
径为”/tmp/hadoop-{username}/dfs/data”。
(3)属性“dfs.namenode.secondary.http-address”表示SecondNameNode
主机及端口号(如果无需额外指定SecondNameNode角色,可以不进行此项配置);
(4)属性“dfs.replication”表示,一个文件上传到hadoop上的副本数目,该值为1表示该文件只保存一份。
2.11、修改配置文件 $HADOOP_HOME/etc/hadoop/mapred-site.xml
该文件是mapReduce的配置文件。修改内容如下:
<configuration>
<property>
<name>mapreduce.framework.name</name> <value>yarn</value>
</property>
<property>
<name>mapreduce.job.tracker</name>
<value>hdfs://master:8888</value>
<final>true</final>
</property>
</configuration>
属性”mapreduce.framework.name“表示执行mapreduce任务所使用的运行框架,默认为 local,需要将其改为”yarn”.
2.12、修改配置文件 $HADOOP_HOME/etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
</configuration>
(1)属性”yarn.resourcemanager.hostname”用来指定ResourceManager主机地址;
(2)属性”yarn.nodemanager.aux-service“表示MR applicatons所使用的shuffle工具类。
2.13、修改配置文件$HADOOP_HOME/etc/hadoop/hadoop-env.sh
配置JAVA_HOME
2.14、修改配置文件$HADOOP_HOME/libexec/hadoop-config.sh
在下面3行注释下面添加JAVA_HOME:
# Newer versions of glibc use an arena memory allocator that causes virtual
# memory usage to explode. This interacts badly with the many threads that
# we use in Hadoop. Tune the variable down to prevent vmem explosion.
export JAVA_HOME= . . .
2.15、把该配置好的hadoop目录移动到另外两个slave虚拟机中
先压缩hadoop成压缩包,然后利用scp移动到其他虚拟机。
scp /root/hadoop-2.6.4.tar.gz slave1:/home/hadoop
scp /root/hadoop-2.6.4.tar.gz slave2:/home/hadoop
然后,ssh连接到其他虚拟机之后,再解压。
2.16、仅修改master节点的配置文件:$HADOOP_HOME/etc/hadoop/slaves
集群中的master节点(NameNode、ResourceManager)需要配置其所拥有的slave节点,其中:
NameNode节点的slaves内容为:slave1 slave2
----------------------------配置完毕---------------------------------
格式化并开启hadoop。以下操作需在master节点中运行。
2.17、格式化hdfs文件系统
$HADOOP_HOME/bin/hdfs namenode -format //格式化
此处,需要hdfs-site.xml的配置文件的dir目录已经创建。
2.18、开启hadoop
分别登陆如下主机并执行相应命令(位于$HADOOP_HOME/sbin目录下):
① 执行start-yarn.sh命令,启动集群资源管理系统yarn ;
② 执行start-dfs.sh命令启动集群HDFS文件系统;
查看进程的状态:输入jps
分别登陆各master/slave节点执行jps命令,查看每个节点是否有如下Java进程运行:
master节点运行的进程:ResourceManager、NameNode、SecondaryNameNode
slave节点运行的进程: NodeManager、DataNode
如果以上操作正常则说明Hadoop集群已经正常启动。
此外,还可通过浏览器查看hadoop的运行状态: