一、spark应用资源构成和执行过程
1.资源构成
一个spark应用是由:Driver + Executors组成,其中:
(1)Driver: SparkContext上下文的构建、RDD的构建、RDD的调度
(2)Executor:具体task执行的位置
备注:一个application 可以包含多个jobs,一个job包含多个stage,一个stage包含多个task
2.各个模块作用
针对spark on yarn:
(1)client模式:
driver(相当于client去申请): 负责applicationmaster的资源申请和任务调度
applicationMaster:Executor中的资源申请
Executor:Task执行
(2)cluster模式:
dirver(ApplicationMaster): 资源申请和任务调度
Executor:Task执行
3.具体概念
(1)Job
由于调用了RDD的action类型的API,所以触发rdd对应的job提交到executors中执行
(2)Stage
当RDD的DAG图进行提交之前,Driver中的SparkContext中的DAGScheduler会DAG进行划分,形成Stage;
划分规则:从DAG图的最后往前推,直到遇到一个宽依赖的API,那么就形成一个Stage,继续直到第一个RDD。例如:reduceByKey这个宽依赖
备注:Stage的执行是有依赖关系的,前一个Stage的数据结果是后一个Stage的数据的输入;只有上一个Stage中的所有task都执行完了下一个Stage才会执行
(3)Task:是Executor中执行的最小单位。从RDD的分布情况来讲,每个task实质上就是RDD的分区;
查看RDD的分区:rdd.partitions,然后可以查看length,可以看到rdd的分区数量,就是task数量
scala> rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).partitions
res2: Array[org.apache.spark.Partition] = rray(org.apache.spark.rdd.ShuffledRDDPartition@0)
scala> res2.length
res3: Int = 1
二、spark应用配置信息
1. spark-defaults.conf
2. spark-submit脚本参数
--name 给定job的名称(可以在代码中给定,也可以在这里给定)
--master:给定运行spark应用的执行位置信息
--conf:给定配置参数,可以有多个--conf
--propertise-file:配置信息文件,默认在conf/spark-defaults.conf
例如:
date=`date +"%Y%m%d%H%M"`
/opt/modules/spark-2.1.0-bin-2.7.3/bin/spark-submit \
--master yarn \
--deploy-mode client \
--class _0722rdd.Wordcount_product \
--driver-memory 1G \
--driver-cores 1 \
--executor-memory 1G \
--executor-cores 1 \
--num-executors 1 \
--conf spark.app.coalesce=1 \
/opt/datas/lib/scalaProjectMaven.jar
3.spark代码中通过SparkConf对象指定参数
//1.创建sparkContext上下文
val conf = new SparkConf()
//本地模式,* 会在运行期间检查当前环境下还剩下多少cpu核心,占满
.setMaster("local[*]") //设定运行位置【否则报错!】
.setAppName("idea_start_wc") //设置运行程序名称【否则报错!】
4.优先级:1 < 2 < 3
5.配置参数意义
【参考:http://spark.apache.org/docs/2.1.0/configuration.html#available-properties】
--master:给定运行spark应用的执行位置信息
--deploy-mode:给定driver在哪儿执行
client:driver在执行spark-submit的那台机器上运行
cluster:driver在集群中任选一台机器运行
--driver-memory MEM:
指定driver运行的时候jvm的内存大小,默认1G,一般情况下要求比单个executor的内存要大
--executor-memory MEM:
指定单个executor的内存大小,默认1G
--driver-cores NUM:
指定spark on standalone的时候,而且是cluster模式的请看看下,driver运行过程中使用的core数量,默认1
--supervise:
当运行环境为standalone/mesos + cluster,如果driver运行失败,会重新自动进行恢复操作,client模式就不会
--total-executor-cores NUM :
运行环境为standalone/mesos,给定应用需要的总的core的数目,默认所有
--executor-cores NUM:
运行环境为standalon/yarn,给定应用运行过程中,每个executor包含的core数目,默认1个(yarn),默认all(standalone)
--driver-cores NUM:
spark on yarn cluster, 给定driver运行需要多少个core,默认1个
--num-executors NUM:
申请多少个executor,默认2,其实这里的executor就是container容器