Spark 2.x管理与开发-Spark的安装与部署(一)概述+虚拟机设置+准备工作
一、Spark的安装与部署概述
搭建Spark环境时注意的:1)伪分布式:一台服务器,Master和Worker放在一起 2)分布式:多台服务器 3)主从架构会出现单点故障问题,解决-HA Spark的安装部署方式有以下几种模式:1)Standalone 2)YARN 3)Mesos 4)Amazon EC2 Spark Standalone伪分布的部署1.配置文件:conf/spark-env.sh (master的信息) export JAVA_HOME=/root/training/jdk1.7.0_75(根据自己的写) export SPARK_MASTER_HOST=spark81(根据自己的集群主节点名称写) export SPARK_MASTER_PORT=7077(固定的) 下面的可以不写,默认 export SPARK_WORKER_CORES=1 export SPARK_WORKER_MEMORY=1024m 2.配置文件:conf/slave (从节点信息) spark81(根据自己集群的从节点名称写) Spark Standalone全分布的部署1.配置文件:conf/spark-env.sh(master的信息) export JAVA_HOME=/root/training/jdk1.7.0_75(根据自己的写) export SPARK_MASTER_HOST=spark82(根据自己的集群主节点名称写) export SPARK_MASTER_PORT=7077(固定的) 下面的可以不写,默认 export SPARK_WORKER_CORES=1 export SPARK_WORKER_MEMORY=1024m conf/slave (从节点信息) spark83 spark84 (根据自己集群的从节点名称写) 启动Spark集群:sbin/start-all.sh(伪分布式和完全分布式都是) 注意:由于Hadoop的启动命令也是这个,所以如果Hadoop配了环境变量,Spark就不用配了。 Spark可视化页面ip:8080 |
********************自己安装部署*********************
二、虚拟机设置
一个虚拟机,内存:4G(Spark足够了)、处理器:2个(Spark Streaming这里就需要两个了)
这是对主节点的要求。从节点内存可以稍微小一些,处理器1个就足够了。
三台都是这样的(可在之前搭建的Hadoop基础上改装)
注意:Hadoop和Spark命令脚本有冲突
所以如果之前有配过Hadoop环境变量,Spark就不要配置环境变量了。
三、准备工作:
安装JDK、配置主机名、免密登陆
(如果之前安装好了Hadoop这些就已经完成了)