一、安装步骤

1. 下载Spark安装包并解压后,有以下目录:

启动spark rest_hadoop

其中bin目录下放置了和spark server端交互的shell文件,如spark-submit,spark-sql,beeline等。conf目录下放置关于spark应用的配置文件,jars目录下存放spark程序运行的依赖jar包,sbin目录下存放启动和停止spark进程的控制脚本。

2. spark standalone模式采用Master-Slave架构,即由一个Master进程和多个Slave( Worker )进程构成。这些进程可以在一台机器上,也可以分布在多台机器上。从性能上考虑,建议一台机器一个进程。安装spark的机器环境:

192.168.0.101 node1
192.168.0.102 node2
192.168.0.103 node3

这里使用node1机器作为Master节点,使用node1, node2和node3机器作为Slave(Worker)节点。

3. 拷贝spark-env.sh.template文件并重命名为spark-env.sh:

cp conf/spark-env.sh.template conf/spark-env.sh

编辑spark-env.sh文件,修改以下变量:
SPARK_MASTER_HOST=node1    绑定主机(必须设置)
SPARK_MASTER_PORT    绑定端口号(默认端口7077)
SPARK_MASTER_WEBUI_PORT     http服务的端口号(默认端口号8080)

拷贝slaves.template文件并重名为slaves文件:

cp conf/slaves.template conf/slaves

编辑slaves文件,删除默认localhost值,加入以下内容:

node1
node2
node3

4. 将修改好的安装包文件同步到其他节点:

scp -r /opt/spark-2.3.3-bin-hadoop2.6/ node2:/opt
 scp -r /opt/spark-2.3.3-bin-hadoop2.6/ node3:/opt

5. 在Master节点上运行sbin/start-all.sh脚本:

./sbin/start-all.sh

start-all脚本会先在本机节点上启动Master进程,然后读取conf/slaves文件,得到slave机器列表。使用ssh远程命令在这些机器上启动slave进程。启动成功后在网页上访问http://node1:8080。

二、Spark参数配置

1. 当Spark Stanadlone集群启动后,分配给每个worker机器节点的可用内存 = 机器总内存 - 1GB,可用cpu 核数 = 机器总核心数.。但在实际运行的机器环境上,要考虑分配给hadoop或其他进程所需的cpu数和内存,在spark-env.sh文件中编辑以下变量可修改默认配置:

SPARK_WORKER_CORES	Total number of cores to allow Spark applications to use on the machine (default: all available cores).
SPARK_WORKER_MEMORY	Total amount of memory to allow Spark applications to use on the machine, e.g. 1000m, 2g (default: total memory minus 1 GB); note that each application's individual memory is configured using its spark.executor.memory property.

2. Spark在执行Shuffle任务时,会先将map任务结果写到本地磁盘,缓存RDD也会缓存到本地磁盘。针对这种情况,我们可以配置一块固态硬盘来存放这些输出,加速spark任务的运行。编辑spark-env.sh文件的SPARK_LOCAL_DIRS变量:

SPARK_LOCAL_DIRS	Directory to use for "scratch" space in Spark, including map output files and RDDs that get stored on disk. This should be on a fast, local disk in your system. It can also be a comma-separated list of multiple directories on different disks.

3. 针对master和worker进程本身而言,有以下设置:

SPARK_DAEMON_MEMORY	Memory to allocate to the Spark master and worker daemons themselves (default: 1g).
SPARK_DAEMON_JAVA_OPTS	JVM options for the Spark master and worker daemons themselves in the form "-Dx=y" (default: none).
SPARK_DAEMON_CLASSPATH	Classpath for the Spark master and worker daemons themselves (default: none).

4. 当使用spark-submit命令向spark集群提交任务时,spark会启动Driver进程和Executor进程来运行这些任务,先放一张spark的官方架构图:

启动spark rest_hadoop_02

向spark集群提交任务支持两种模式:client 和 cluster,两者区别在于前者在使用spark-submit命令的进程里启动Driver进程运行main函数,而后者会在集群中选取一个节点启动Driver进程。而有关数据变换处理的map和reduce任务,是在worker节点上分配新的Executor进程中运行,每次运行完成后释放。