开发环境总体版本信息如下:

1、linux:centos 6.8,安装过程参见 

2、java版本:jdk-8u172-linux-x64.tar.gz

3、hadoop版本:hadoop-3.1.0.tar.gz

4、scala版本:scala-2.12.6.tgz

5、python版本:Python-3.6.5.tgz

6、spark版本:spark-2.3.0-bin-hadoop2.7.tgz

7、zookeeper版本:zookeeper-3.4.10.tar.gz

8、hive版本:

9、kafka版本:

10、服务器集群:192.168.0.110(master),192.168.0.111(slave1),192.168.0.112(slave2)

一、java的安装

1、上传jdk安装包到/usr/local/lib目录下,并解压缩

Linux 查看 spark 版本 linux打开spark_hive

2、把解压的文件夹复制到另外两台机子

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_02

3、三台服务器分别修改bigdata用户的环境变量

Linux 查看 spark 版本 linux打开spark_上传_03

Linux 查看 spark 版本 linux打开spark_spark_04

4、使配置生效并验证

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_05

二、hadoop的安装

1、bigdata用户家目录下创建目录bigdata,上传hadoop安装包并解压

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_06

2、进入hadoop配置文件目录,修改hadoop配置

Linux 查看 spark 版本 linux打开spark_上传_07

3、修改core-site.xml,添加红色方框的内容

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_08

4、修改hdfs-site.xml,并创建对应的目录

Linux 查看 spark 版本 linux打开spark_spark_09

 

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_10

5、修改yarn-site.xml

Linux 查看 spark 版本 linux打开spark_上传_11

6、修改workers(老版本为slaves)

Linux 查看 spark 版本 linux打开spark_spark_12

7、修改hadoop-env.sh,增加JAVA_HOME

Linux 查看 spark 版本 linux打开spark_上传_13

8、把master上配置好的hadoop分发到每一个slave上

Linux 查看 spark 版本 linux打开spark_hive_14

9、只需在master上bigdata用户下配置环境变量

Linux 查看 spark 版本 linux打开spark_hive_15

10、使环境变量生效并检查

Linux 查看 spark 版本 linux打开spark_hive_16

11、首次运行hdfs,需要先格式化hdfs【 hdfs namenode -format 】,然后启动hdfs【start-dfs.sh】

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_17

12、可访问http://192.168.0.110:9870【192.168.0.110为master的ip地址,老版本hadoop的端口为50070】看下是否部署成功;如需停止hdfs,使用【stop-dfs.sh】

Linux 查看 spark 版本 linux打开spark_spark_18

13、也可输入名jps,查看是否有以下进程

Linux 查看 spark 版本 linux打开spark_spark_19

14、启动yarn【start-yarn.sh】

 

Linux 查看 spark 版本 linux打开spark_hive_20

15、访问http://192.168.0.110:8088/cluster,查看yarn是否正常工作,停止yarn使用【stop-yarn.sh】

Linux 查看 spark 版本 linux打开spark_上传_21

16、也可输入名jps,查看是否有以下进程

Linux 查看 spark 版本 linux打开spark_hive_22

综上,hadoop集群安装完毕!

三、scala的安装

1、切换到root用户下,下载scala并上传到/usr/local/lib目录下,然后解压

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_23

2、把解压后的文件分发到slave1和slave2

 scp -r scala-2.12.6 root@slave1:/usr/local/lib

 scp -r scala-2.12.6 root@slave2:/usr/local/lib

3、分别在三台服务器上修改bigdata用户的环境变量

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_24

4、验证环境变量是否生效

Linux 查看 spark 版本 linux打开spark_spark_25

5、运行scala命令验证是否安装成功,并按ctrl+z退出

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_26

四、python的安装

1、在集群上运行pyspark,需要先安装zlib和gcc相关的软件包

Linux 查看 spark 版本 linux打开spark_上传_27

yum -y install gcc*

2、下载python安装包,并上传,然后解压

Linux 查看 spark 版本 linux打开spark_hive_28

3、进入/usr/local/lib/,修改Modules/Setup.dist【老版本是Setup】,找到红色一行,并把注释去掉

Linux 查看 spark 版本 linux打开spark_上传_29

Linux 查看 spark 版本 linux打开spark_上传_30

4、执行./configure

5、make

6、make install

7、查看系统原有python版本,并重命名

Linux 查看 spark 版本 linux打开spark_上传_31

8、修改/usr/bin/yum

Linux 查看 spark 版本 linux打开spark_spark_32

9、重新建立python的软连接

Linux 查看 spark 版本 linux打开spark_hive_33

7、执行python命令,检查是否安装好

Linux 查看 spark 版本 linux打开spark_hive_34

五、spark的安装

 1、下载并上传spark安装文件到bigdata用户家目录下的bigdata目录下,然后解压

Linux 查看 spark 版本 linux打开spark_上传_35

2、配置slaves

Linux 查看 spark 版本 linux打开spark_spark_36

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_37

3、配置spark-env.sh

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_38

Linux 查看 spark 版本 linux打开spark_上传_39

4、把配置好的spark分发slave1和slave2上面

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave1:~/bigdata

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave2:~/bigdata

5、在master上配置环境变量

Linux 查看 spark 版本 linux打开spark_上传_40

source ~/.bash_profile

6、启动spark

Linux 查看 spark 版本 linux打开spark_spark_41

7、确认spark已经启动【jps命令,或者访问http://192.168.0.110:8080】

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_42

Linux 查看 spark 版本 linux打开spark_hive_43

8、测试spark代码【ctrl+z退出】

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_44

六、zookeeper的安装

1、下载并上传zookeeper文件,然后解压

Linux 查看 spark 版本 linux打开spark_上传_45

2、修改配置文件

Linux 查看 spark 版本 linux打开spark_hive_46

Linux 查看 spark 版本 linux打开spark_上传_47

 

3、创建配置文件配置的目录

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_48

4、将配置好的zookeeper分发到slave1和slave2

Linux 查看 spark 版本 linux打开spark_上传_49

5、分别在3台服务器的~/bigdata/zookeeper/data目录中新增文件myid并修改

Linux 查看 spark 版本 linux打开spark_hive_50

master上myid的内容为:0

slave1上myid的内容为:1

slave2上myid的内容为:2

6、分别到3台服务器中启动节点zk服务

Linux 查看 spark 版本 linux打开spark_spark_51

7、查看每一个服务器上的zk的状态

Linux 查看 spark 版本 linux打开spark_上传_52

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_53

七、hive的安装

1、安装mysql

安装:yum install -y  mysql-server

启动:service mysqld start

修改root用户密码:mysqladmin -u root password 'root'

创建数据库hive并授权:

Linux 查看 spark 版本 linux打开spark_hive_54

2、下载并上传hive安装包,然后解压

Linux 查看 spark 版本 linux打开spark_上传_55

3、进入配置目录【/home/bigdata/bigdata/apache-hive-2.3.3-bin/conf】,修改配置文件hive-site.xml

Linux 查看 spark 版本 linux打开spark_上传_56

Linux 查看 spark 版本 linux打开spark_hive_57

4、编辑hive-env.sh

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_58

Linux 查看 spark 版本 linux打开spark_hive_59

5、下载mysql的jdbc驱动mysql-connector-java-5.1.44-bin.jar,上传/home/bigdata/bigdata/apache-hive-2.3.3-bin/lib

Linux 查看 spark 版本 linux打开spark_上传_60

6、配置master的环境变量

Linux 查看 spark 版本 linux打开spark_上传_61

source ~/.bash_profile

7、创建hive-site.xml里面配置的目录并授权

Linux 查看 spark 版本 linux打开spark_hive_62

8、指定hive数据库类型并初始化

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_63

9、验证hive的mysql数据库是否安装成功【hive数据库下面是否有表】

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_64

 10、运行hive前首先要确保meta store服务已经启动:先创建hive运行日志目录logs,再运行HIVE

Linux 查看 spark 版本 linux打开spark_spark_65

验证:

 

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_66

运行HIVE

Linux 查看 spark 版本 linux打开spark_上传_67

八、kafka的安装

 1、下载kafka并上传,然后解压

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_68

 2、创建日志目录,修改配置文件

mkdir /home/bigdata/bigdata/kafka-logs-new

 

Linux 查看 spark 版本 linux打开spark_上传_69

Linux 查看 spark 版本 linux打开spark_spark_70

Linux 查看 spark 版本 linux打开spark_上传_71

 

3、将kafka分发到slave1 和 slave2

Linux 查看 spark 版本 linux打开spark_Linux 查看 spark 版本_72

4、分别修改slave1和slave2上面的server.properties文件

slave1:broker.id=1

 slave2:broker.id=2

5、分别在三台服务器上启动broker server

Linux 查看 spark 版本 linux打开spark_spark_73

nohup bin/kafka-server-start.sh config/server.properties>~/bigdata/kafka_2.12-1.1.0/logs/server.log 2>&1 &

 6、在master上创建topic

Linux 查看 spark 版本 linux打开spark_上传_74

7、查看topic

Linux 查看 spark 版本 linux打开spark_spark_75

8、启动producer发送消息

Linux 查看 spark 版本 linux打开spark_spark_76

9、启动consumer消费消息

Linux 查看 spark 版本 linux打开spark_hive_77

10、效果如下

 

Linux 查看 spark 版本 linux打开spark_hive_78