1.spark出现原因

SPARK_MASTER_PORT怎么设置 spark setmaster yarn_jar

2.spark架构:

SPARK_MASTER_PORT怎么设置 spark setmaster yarn_spark_02

SPARK_MASTER_PORT怎么设置 spark setmaster yarn_jar_03

spark分为Master节点和slave节点,ApplicationMaster资源调度,Executor执行具体的task;

3.yarn架构

SPARK_MASTER_PORT怎么设置 spark setmaster yarn_spark_04

 

yarn由RM和NM组成,每个在yarn上运行的计算框架只需要实现AM接口,做到不同类型计算框架都可以在yarn运行;

每个运行在yarn上的任务都有一个AM;

AM做到了RM与Driver的桥梁;

具体作业任务由Driver调度;

spark只是一个计算框架,借助hdfs做数据存储,虽然spark有资源调度框架,但是跑在yarn集群上时,都是借助yarn的资源调度;

spark每个任务的driver跑在AM的container中,具体的task也跑在container中,可以做到资源隔离作用;不管是spark,还是MapReduce,都只需要实现AM接口,所有任务都跑在container中;

4、spark运行模式

4.1 Local模式

local模式是运行在一台计算机上面的模式,用于练手和测试;一般有三种格式:

local:默认一个线程;

local[K]:指定K个线程;

local[*]:适配CPU个数个线程;

4.2 独立集群模式

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

--master:指定运行环境,是spark集群,还是yarn;独立集群就是spark://hadoop102:7077 

4.3 yarn集群模式

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

--master:指定运行环境,是spark集群,还是yarn;yarn集群就是yarn;

--deploy-mode:将驱动是发送到集群还是在本地客户端运行(提交任务的机器);

client:driver运行在提交作业的机器上(可以看到程序打印日志);

cluster:driver运行在集群上某个机器上(看不到日志,只可以看到running状态),Driver在AppMaster执行;

5.单词统计思想

SPARK_MASTER_PORT怎么设置 spark setmaster yarn_jar_05

  • 1、一行行读取数据
  • 2、对每行数据拆分成词
  • 3、对单个单词转换结构为k-v键值对
  • 4、对k-v键值对分组统计
scala> sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res6: Array[(String, Int)] = Array((hello,2), (java,1), (spark,1))

数据流分析:

textFile("input"):读取本地文件input文件夹数据;

flatMap(_.split(" ")):压平操作,按照空格分割符将一行数据映射成一个个单词;

map((_,1)):对每一个元素操作,将单词映射为元组;

reduceByKey(_+_):按照key将值进行聚合,相加;

collect:将数据收集到Driver端展示。

SPARK_MASTER_PORT怎么设置 spark setmaster yarn_jar_06

6、spark跑在yarn模式上

spark跑在yarn上时,spark客户端直接连接yarn,无需构建额外的spark集群;有spark-client,spark-cluster两种模式,其主要区别在于driver运行的位置;clinet模式可以用于调试,日志在提交的窗口显示;

spark运行在yarn上时需要启动HDFS和yarn;

Spark Yarn部署流程:

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

SPARK_MASTER_PORT怎么设置 spark setmaster yarn_spark_07

SPARK_MASTER_PORT怎么设置 spark setmaster yarn_jar_08