Spark 2.x管理与开发-Spark的安装与部署(一)概述+虚拟机设置+准备工作

一、Spark的安装与部署概述

搭建Spark环境时注意的:

1)伪分布式:一台服务器,Master和Worker放在一起

2)分布式:多台服务器

3)主从架构会出现单点故障问题,解决-HA

Spark的安装部署方式有以下几种模式:

1)Standalone

2)YARN

3)Mesos

4)Amazon EC2

Spark Standalone伪分布的部署

1.配置文件:conf/spark-env.sh (master的信息)

export JAVA_HOME=/root/training/jdk1.7.0_75(根据自己的写)

export SPARK_MASTER_HOST=spark81(根据自己的集群主节点名称写)

export SPARK_MASTER_PORT=7077(固定的)

下面的可以不写,默认

export SPARK_WORKER_CORES=1

export SPARK_WORKER_MEMORY=1024m

2.配置文件:conf/slave (从节点信息)

spark81(根据自己集群的从节点名称写)

Spark Standalone全分布的部署

1.配置文件:conf/spark-env.sh(master的信息)

export JAVA_HOME=/root/training/jdk1.7.0_75(根据自己的写)

export SPARK_MASTER_HOST=spark82(根据自己的集群主节点名称写)

export SPARK_MASTER_PORT=7077(固定的)

下面的可以不写,默认

export SPARK_WORKER_CORES=1

export SPARK_WORKER_MEMORY=1024m

conf/slave (从节点信息)

spark83

spark84

(根据自己集群的从节点名称写)

启动Spark集群:

sbin/start-all.sh(伪分布式和完全分布式都是)

注意:由于Hadoop的启动命令也是这个,所以如果Hadoop配了环境变量,Spark就不用配了。

Spark可视化页面ip:8080

spark有几种部署模式,每种模式的特点 spark 部署_SPARK


********************自己安装部署*********************

二、虚拟机设置

一个虚拟机,内存:4G(Spark足够了)、处理器:2个(Spark Streaming这里就需要两个了)

这是对主节点的要求。从节点内存可以稍微小一些,处理器1个就足够了。

 

spark有几种部署模式,每种模式的特点 spark 部署_spark_02

 

 三台都是这样的(可在之前搭建的Hadoop基础上改装)

注意:Hadoop和Spark命令脚本有冲突

所以如果之前有配过Hadoop环境变量,Spark就不要配置环境变量了。

三、准备工作:

安装JDK、配置主机名、免密登陆

(如果之前安装好了Hadoop这些就已经完成了)