spark yarn模式提交任务流程 spark on yarn提交任务

转载

archangle 2023-09-21 01:32:04

文章标签 spark yarn模式提交任务流程 spark on yarn 完全分布式 spark安装包 spark 应用程序 文章分类 Spark 大数据

本地运行模式

该模式被称为Local[N]模式，是用单机的多个线程来模拟Spark分布式计算，通常用来验证开发出来的应用程序逻辑上有没有问题。其中N代表可以使用N个线程，每个线程拥有一个core。如果不指定N，则默认是1个线程(该线程有1个core)。

spark-submit --class com.shangshi.WC --master local spark3.jar /root/th.txt   /root/sparktest/r.txt

运行该模式非常简单，只需要把Spark的安装包解压后，改一些常用的配置即可使用，而不用启动Spark的Master、Worker守护进程( 只有集群的Standalone方式时，才需要这两个角色)，也不用启动Hadoop的各服务(除非你要用到HDFS)

这个SparkSubmit进程既是客户提交任务的Client进程、又是Spark的driver程序、还充当着Spark执行Task的Executor角色。

本地伪集群运行模式

这种运行模式，和Local[N]很像，不同的是，它会在单机启动多个进程来模拟集群下的分布式场景，而不像Local[N]这种多个线程只能在一个进程下委屈求全的共享资源。通常也是用来验证开发出来的应用程序逻辑上有没有问题，或者想使用Spark的计算框架而没有太多资源。用法是：提交应用程序时使用local-cluster[x,y,z]参数：x代表要生成的executor数，y和z分别代表每个executor所拥有的core和memory数。

spark-submit --class com.shangshi.WC --master local-cluster[1,1,1024] spark3.jar /root/th.txt /root/sparktest/r6

spark yarn模式提交任务流程 spark on yarn提交任务_spark安装包

Spark自带Cluster Manager的Standalone 模式

和单机运行的模式不同，这里必须在执行应用程序前，先启动Spark的Master和Worker守护进程。不用启动Hadoop服务，除非你用到了HDFS的内容。

spark-submit --class com.shangshi.WC --master spark://newds:7077 \
 --deploy-mode cluster \
--driver-memory 1g \ 
--executor-cores 1 \
spark3.jar /root/th.txt /root/sparktest/r9

spark yarn模式提交任务流程 spark on yarn提交任务_spark on yarn 完全分布式_02

运行流程图：

spark yarn模式提交任务流程 spark on yarn提交任务_应用程序_03

Spark on YARN模式

Spark on YARN模式根据Driver在集群中的位置分为两种模式：一种是YARN-Client模式，另一种是YARN-Cluster(或称为YARN-Standalone模式)。

(1)提交任务到yarn-client

Yarn-Client模式中，Driver在客户端本地运行，这种模式可以使得Spark Application和客户端进行交互，因为Driver在客户端，所以可以通过webUI访问Driver的状态，默认是http://hadoop1:4040访问，而YARN通过http:// hadoop1:8088访问。

spark-submit --class com.shangshi.WC --master yarn --deploy-mode client  \
--num-executors 1 \ 
 --driver-memory 512m \ 
--executor-memory 512m \ 
 --total-executor-cores 1 \
spark3.jar /root/th.txt /root/sparktest/r10

spark yarn模式提交任务流程 spark on yarn提交任务_spark on yarn 完全分布式_04

流程详解：

Spark Yarn Client向YARN的ResourceManager申请启动Application Master。同时在SparkContent初始化中将创建DAGScheduler和TASKScheduler等，由于我们选择的是Yarn-Client模式，程序会选择YarnClientClusterScheduler和YarnClientSchedulerBackend。

ResourceManager收到请求后，在集群中选择一个NodeManager，为该应用程序分配第一个Container，要求它在这个Container中启动应用程序的ApplicationMaster，与YARN-Cluster区别的是在该ApplicationMaster不运行SparkContext，只与SparkContext进行联系进行资源的分派。

Client中的SparkContext初始化完毕后，与ApplicationMaster建立通讯，向ResourceManager注册，根据任务信息向ResourceManager申请资源(Container)一旦ApplicationMaster申请到资源(也就是Container)后，便与对应的NodeManager通信，要求它在获得的Container中启动CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend启动后会向Client中的SparkContext注册并申请Task。

client中的SparkContext分配Task给CoarseGrainedExecutorBackend执行，CoarseGrainedExecutorBackend运行Task并向Driver汇报运行的状态和进度，以让Client随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。

应用程序运行完成后，Client的SparkContext向ResourceManager申请注销并关闭自己。

(2)提交任务到yarn-cluster

在Resource Manager端提交应用程序，会生成SparkSubmit进程，该进程只用来做Client端，应用程序提交给集群后，就会删除该进程。Resource Manager在集群中的某个NodeManager上运行ApplicationMaster，该AM同时会执行driver程序。紧接着，会在各NodeManager上运行CoarseGrainedExecutorBackend来并发执行应用程序。

spark-submit --class com.shangshi.WC --master yarn --deploy-mode cluster  \
--num-executors 1 \ 
--driver-memory 512m \ 
--executor-memory 512m \ 
 --total-executor-cores 1 \
spark3.jar /root/th.txt /root/sparktest/r10

运行流程图：

spark yarn模式提交任务流程 spark on yarn提交任务_spark_05

流程详解：

Spark Yarn Client向YARN中提交应用程序，包括ApplicationMaster程序、启动ApplicationMaster的命令、需要在Executor中运行的程序等。

ResourceManager收到请求后，在集群中选择一个NodeManager，为该应用程序分配第一个Container，要求它在这个Container中启动应用程序的ApplicationMaster，其中ApplicationMaster进行SparkContext等的初始化。

ApplicationMaster向ResourceManager注册，这样用户可以直接通过ResourceManage查看应用程序的运行状态，然后它将采用轮询的方式通过RPC协议为各个任务申请资源，并监控它们的运行状态直到运行结束。

一旦ApplicationMaster申请到资源(也就是Container)后，便与对应的NodeManager通信，要求它在获得的Container中启动CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend启动后会向ApplicationMaster中的SparkContext注册并申请Task。这一点和Standalone模式一样，只不过SparkContext在Spark Application中初始化时，使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler进行任务的调度，其中YarnClusterScheduler只是对TaskSchedulerImpl的一个简单包装，增加了对Executor的等待逻辑等。

ApplicationMaster中的SparkContext分配Task给CoarseGrainedExecutorBackend执行，CoarseGrainedExecutorBackend运行Task并向ApplicationMaster汇报运行的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。

应用程序运行完成后，ApplicationMaster向ResourceManager申请注销并关闭自己。

提交到yarn上时，需要修改一些配置，明天补充。

Spark Client 和 Spark Cluster的区别:

理解YARN-Client和YARN-Cluster深层次的区别之前先清楚一个概念：ApplicationMaster。

在YARN中，每个Application实例都有一个ApplicationMaster进程，它是Application启动的第一个容器。它负责和ResourceManager打交道并请求资源，获取资源之后告诉NodeManager为其启动Container。从深层次的含义讲YARN-Cluster和YARN-Client模式的区别其实就是ApplicationMaster进程的区别.

YARN-Cluster模式下，Driver运行在AM(Application Master)中，它负责向YARN申请资源，并监督作业的运行状况。当用户提交了作业之后，就可以关掉Client，作业会继续在YARN上运行。生产过程中用的额比较多。

YARN-Client模式下，Application Master仅仅向YARN请求Executor，Client会和请求的Container通信来调度他们工作，也就是说Client不能离开

Spark与hadoop:

Hadoop有两个核心模块，分布式存储模块HDFS和分布式计算模块Mapreduce.

spark本身并没有提供分布式文件系统，因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS.

Hadoop的Mapreduce与spark都可以进行数据计算，而相比于Mapreduce，spark的速度更快并且提供的功能更加丰富。

spark yarn模式提交任务流程 spark on yarn提交任务_spark yarn模式提交任务流程_06