搭建Hadoop的分布式集群
Hadoop集群搭建的准备操作:
1、准备四台服务器
四台服务器的主机名分别是:potter2、potter3、potter4、potter5。
对以上四台服务器需要做一下准备操作,这些准备都是为了将来搭建Hadoop集群做准备的。
(1)修改各个服务器的主机名。
第一步:先查看主机名
第二步:永久修改主机名
保存退出
(2)配置各个服务器的IP
第一步:查看服务器ip
第二步:配置ip
(3)配置各个服务器的主机映射
配置主机映射:
(4)添加potter用户,并且添加sudoer权限
第一步:添加用户
设置密码:
第二步:添加sudoer权限
在root用户下编辑 vi /etc/sudoers
在文件的如下位置,为hadoop添加一行即可
root ALL=(ALL) ALL
potter ALL=(ALL) ALL
然后,hadoop用户和spark用户就可以用sudo来执行系统级别的指令
[hadoop@hadoop01 ~]$ sudo useradd huangxiaoming
(5)关闭防火墙/关闭selinux
第一步:关闭防火墙
设置防火墙开机自启:
查看防火墙状态:
第二步:关闭selinux
(6)更改系统启动级别为3
第一步:查看系统运行的级别
第二步:修改系统默认启动级别
(7)安装JDK
第一步:准备JDK软件
jdk-8u73-linux-x64.tar.gz
第二步:可以通过ftp工具把软件传到linux服务器上面;或者按住键盘上面的ALT+P 直接拖动上去。
第三步:把软件解包解压缩出来到安装路径下去:
tar -zxvf jdk-8u73-linux-x64.tar.gz -C /usr/local/
第四步:配置环境变量
1、vi /etc/profile
2、在该文件最后加入两行代码:
export JAVA_HOME=/usr/local/jdk1.8.0_73
export PATH=$PATH:$JAVA_HOME/bin
3、保存退出
4、执行 source /etc/profile
第五步:检测 jdk 是否安装成功,使用命令:java -version
然后进行克隆三台机器,只需要修改IP跟主机名。
(8)四台服务器做时间同步
第一步:使用 date 命令手动简单同步一下
命令:date -s "2016-10-23 11:11:11"
修改时间后,需要写入硬件 bios 才能在重启之后依然生效
命令:hwclock -w
第二步:配置 crontab 服务,用 ntpdate 定时同步时间(推荐方式)
ntpdate 202.120.2.101
第三步:如果类似 202.120.2.101 这种网络时间服务器无法访问,那么请自行搭建时间服务器
以上两种方式不管怎么做,都不要忘记更改时区。
(9)四台服务器配置SSH(免密登录)
第一种方式:手动配置(需要在.ssh文件夹中)命令:cd .ssh
第一步:在potter2中生成密钥对:命令:ssh-keygen
第二步:将potter2自己的公钥放置到授权列表文件authorized_keys
cat id_rsa.pub >> authorized_keys
第三步:在potter3中生成密钥对:命令:ssh-keygen
第四步:将potter2中的authorized_keys发送给potter3对应的文件夹下
scp -r authorized_keys root@192.168.123.103:/root/.ssh/(如果配置了映射文件IP地址可以写成potter3)
第五步:将potter3中的公钥放置到authorized_keys
cat id_rsa.pub >> authorized_keys(这样potter3里面authorized_keys就有了potter2和potter3的公钥,可以用 命令:cat authorized_key 查看)
第六步:将potter3中的authorized_keys发送给potter4对应的文件夹下
scp -r authorized_keys root@192.168.123.104:/root/.ssh/
第七步:将potter4中的公钥放置到authorized_keys
cat id_rsa.pub >> authorized_keys
第八步:将potter4中的authorized_keys发送给potter5对应的文件夹下
scp -r authorized_keys root@192.168.123.105:/root/.ssh/
第九步:将potter5中的公钥放置到authorized_keys
cat id_rsa.pub >> authorized_keys(这样authorized_keys文件里面就有了potter2、potter3、potter4、potter5的公钥,可以用命令:cat authorized_key 查看)
第十步:将potter5中的authorized_keys发送个各个linux服务器
scp -r authorized_keys root@192.168.123.102:/root/.ssh/
scp -r authorized_keys root@192.168.123.103:/root/.ssh/
scp -r authorized_keys root@192.168.123.104:/root/.ssh/
这样每个服务器中就都有了每一个服务器的公钥,配置完成。
第二种方式:
用 SecureCRTPortable这个软件将四台服务器连接好
第一步:点击Window选上TileVertically
会出现以下界面
第二步:点击View,选取ChatWindow
会在下方出现一个输入框
第三步:在空白处右键选择Send Chat to All Sessions,会在空白处上方出现Send Chat to All Sessions这个字样。这样就可以在空白处输入命令一起操控四台服务器。
第三步:在空白处输入命令:ssh-keygen,四台服务器会一起生成密钥对。
第四步:在空白处输入命令:ssh-copy-id potter2,会在potter2服务器上一起生成四个公钥。
第五步:在空白处执行三次分别是:
ssh-copy-id potter3
ssh-copy-id potter4
ssh-copy-id potter5
这样每个服务器上的ssh就配置好了。
以上的实现可以分两步操作,先准备好potter2,先做完1-7步之后,然后克隆出potter3、potter4、potter5。
然后再做8和9操作,这样效率最高。
正式搭建Hadoop的分布式集群
1、获取hadoop安装包
第一种方式:从官网直接下载
hadoop-2.7.5-src.tar.gz 2017-12-17 04:03 45M 源码包
hadoop-2.7.5.tar.gz 2017-12-17 04:03 207M 安装包
第二种方式:自己编译
编译的目的:就是为了获取 跟 当前安装hadoop的操作系统匹配的本地依赖库。
2、服务器的角色规划(分配主从节点)
服务 主节点 从节点
HDFS NameNode DataNode
YARN ResourceManager NodeManager 服务器的数量有四台:
服务 potter2 potter3 potter4 potter5
HDFS namenode datanode datanode datanode
YARN nodemanager nodemanager nodemanager ResourceManager
具体操作步骤:
1、准备好四台服务器,做好规划
服务器
规划安装的用户: potter
规划安装目录:/home/potter/apps
规划数据目录:/home/potter/data
2、获取安装包(最好在家目录下)
按住键盘Alt+p,直接拖入。
3、解压缩(需要解压到apps文件夹下)
tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C ~/apps/
4、修改配置文件(需要在hadoop目录下操作命令:cd apps/hadoop-2.7.5/etc/hadoop/)
(1)hadoop-env.sh
(2)core-site.xml
(3)hdfs-site.xml
(4)mapred-site.xml
(5)yarn-site.xml
(6)slaves
(1)vi hadoop-env.sh
修改JAVA_HOME
把 export JAVA_HOME=${JAVA_HOME}
改成 export JAVA_HOME=/usr/local/java/jdk1.8.0_73
(2)vi core-site.xml 在<configuration> </configuration>里面添加
<property>
<name>fs.defaultFS</name>
<value>hdfs://potter2:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/potter/data/hadoopdata</value>
</property>
(3)vi hdfs-site.xml 在<configuration> </configuration>里面添加
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/potter/data/hadoopdata/name</value>
为了保证元数据的安全一般配置多个不同目录</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/potter/data/hadoopdata/data</value>
的数据存储目录</description>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
的数据块的副本存储个数, 默认是3</description>
</property>
<property>
<name>dfs.secondary.http.address</name>
<value>potter3:50090</value>
运行节点的信息,和 namenode 不同节点</description>
</property>
(4)mapred-site.xml在<configuration> </configuration>里面添加
先复制mapred-site.xml
命令:cp mapred-site.xml.template mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
(5)vi yarn-site.xml在<configuration> </configuration>里面添加
<property>
<name>yarn.resourcemanager.hostname</name>
<value>potter5</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
集群为 MapReduce 程序提供的 shuffle 服务</description>
</property>
(6)vi slaves
当前的hadoop安装包是存在于hadoop02上的。 但是安装的hadoop是一个分布式的集群。
把安装包分别分发给其他的节点
重点强调: 每台服务器中的hadoop安装包的目录必须一致, 安装包的配置信息还必须保持一致
需要在 apps文件夹下传到另外三台服务器
scp -r hadoop-2.7.5/ hadoop@potter3:~/apps/
scp -r hadoop-2.7.5/ hadoop@potter4:~/apps/
scp -r hadoop-2.7.5/ hadoop@potter5:~/apps/
配置环境变量 需要在家目录下(~)
千万注意:
、如果你使用root用户进行安装。 vi /etc/profile 即可 系统变量
、如果你使用普通用户进行安装。可以用ll -a进行查看.bashrc文件 vi ~/.bashrc 用户变量
[potter@potter2 ~]$ vi .bashrc
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使环境变量生效
[potter@potter2 bin]$ source ~/.bashrc
3、查看Hadoop版本
[potter@potter2 bin]$ hadoop version
Hadoop 2.7.5
Subversion Unknown -r Unknown
Compiled by root on 2017-12-24T05:30Z
Compiled with protoc 2.5.0
From source with checksum 9f118f95f47043332d51891e37f736e9
This command was run using /home/hadoop/apps/hadoop-2.7.5/share/hadoop/common/hadoop-common-2.7.5.jar
[potter@potter2 bin]$
4、Hadoop初始化
[hadoop@hadoop1 ~]$ hadoop namenode -format
5、启动
A.启动HDFS(注意:不管在集群中的那个节点都可以)
B.启动YARN(注意:只能在主节点中进行启动)
6、查看4台服务器的进程
7、启动HDFS和YARN的web管理界面
HDFS : http://192.168.123.102:50070
YARN : http://hadoop05:8088
疑惑: fs.defaultFS = hdfs://hadoop02:9000
解答:客户单访问HDFS集群所使用的URL地址
同时,HDFS提供了一个web管理界面 端口:50070
HDFS界面
点击Datanodes可以查看四个节点
YARN界面
点击Nodes可以查看节点
需要发送到另外三台服务器:
scp -r ~/.bashrc potter3:~
scp -r ~/.bashrc potter4:~
scp -r ~/.bashrc potter5:~
(下面的操作是没有配置环境变量,可以再需要的时候再配)
(9)初始化
需要在bin文件夹下输入命令(已经配置环境变量的命令:)$HADOOP_HOME/bin/hadoop namenode -format
(没有配置环境变量的命令:)[hadoop@hadoop02 bin]$ /home/hadoop/apps/hadoop-2.7.5/bin/hadoop namenode -format
只能在HDFS的主节点进行(主节点就是potter2服务器)
查看初始化:
进入这个目录/home/potter/data/hadoopdata/name 有一个current文件夹,进入current里面有四个文件,说明初始化成功。
(10)启动
可以再hadoop文件夹下查看配置的主节点是哪个服务器
命令:cat yarn-site.xml
第一步:启动HDFS : 不管在集群中的那个节点都可以
[hadoop@hadoop02 bin]$ /home/hadoop/apps/hadoop-2.7.5/sbin/start-dfs.sh
第二步:启动YARN : 只能在主节点中进行启动
[hadoop@hadoop02 bin]$ /home/hadoop/apps/hadoop-2.7.5/sbin/start-yarn.sh
(11)检测 或者 验证是否成功
第一种方式:JPS 命令 查看 对应的守护进行是否都启动成功
第二种方式:启动HDFS和YARN的web管理界面
HDFS : http://hadoop02:50070
: http://hadoop05:8088
(12)简单使用
HDFS :(可以新建任意一个文件进行运行)
上传文件:~/apps/hadoop-2.7.5/bin/hadoop fs -put zookeeper.out /
下载文件:~/apps/hadoop-2.7.5/bin/hadoop fs -get /zookeeper.out
YARN :
新建一个文件:
hello huangbo
hello xuzheng
hello wangbaoqiang
新建一个文件夹:~/apps/hadoop-2.7.5/bin/hadoop fs -mkdir -p /wc/input
把words.txt上传到HDFS(在家目录下输入命令):
命令:~/apps/hadoop-2.7.5/bin/hadoop fs -put words.txt /wc/input/
查看命令:~/apps/hadoop-2.7.5/bin/hadoop fs -ls /wc/input
进入mapreduce文件夹命令:cd apps/hadoop-2.7.5/share/hadoop/mapreduce/
需要进入到mapreduce文件夹里面,这个文件夹在hadoop文件夹下面,
[potter@potter2 mapreduce]$
运行一个mapreduce的例子程序: wordcount
命令:
~/apps/hadoop-2.7.5/bin/hadoop jar ~/apps/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /wc/input /wc/output
查看最终结果:
~/apps/hadoop-2.7.5/bin/hadoop fs -cat /wc/output/part-r-00000
最终完成hadoop的集群搭建!!!