java中用到广播怎么办

转载

mob64ca14048514 2024-12-08 16:25:36

文章标签 java中用到广播怎么办 spark 获取广播变量 spark 应用程序 scala 文章分类 Java 后端开发

java中用到广播怎么办_spark

首先看一段使用scala编写的spark代码：

package spark0719
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
 
object Ttspark {
 
val conf =new SparkConf().setAppName("sp").setMaster("local")
 
def main(args: Array[String]): Unit = {
     val sc=new SparkContext(conf)
     val number=sc.parallelize(1 to 9)
     def  mapDoubleFunc(num:Int):(Int,Int)={
         (num,num*2)
  }
  val mapResult=number.map(mapDoubleFunc)
      mapResult.collect//foreach(println)/savaAsTextFile("file:///") 
 
  //sc.testFile("file:///")
 
  }

第一行（package spark0719）最开始是程序的包名package。

第二、三行（import

是使用import引入程序包。

第四行（object

第五行（

val conf =new

）定义一个常量conf，重点是SparkConf，SparkConf是用于设置Spark的配置属性

java中用到广播怎么办_应用程序_02

java中用到广播怎么办_spark_03

java中用到广播怎么办_spark 获取广播变量_04

java中用到广播怎么办_spark_03

由第一幅图可以看到getSystemProperties获取的是配置文件，由第二图可以看到，sparkConf里设置master节点、appName、jar包等。所以程序中sparkConf后面直接调用了setMaster和setAppname函数进行两个参数的设置，第二个的local表示本地运行。

第五行（def main(args: Array[String]): Unit =）表示主运行函数开始，main括号内表示args是一个Array类型，Array中是String类型，返回值是Unit（无返回类型相当于java的void），

第六行（val sc=new

sparkContext在Spark应用程序的执行过程中起着主导作用，它负责与程序和spark集群进行交互，包括申请集群资源、创建RDD、accumulators及广播变量等。sparkContext与集群资源管理器、work节点交互图如下：

java中用到广播怎么办_scala_06

java中用到广播怎么办_spark_03

官网对图下面几点说明：
（1）不同的Spark应用程序对应不同的Executor，这些Executor在整个应用程序执行期间都存在并且Executor中可以采用多线程的方式执行Task。这样做的好处是，各个Spark应用程序的执行是相互隔离的。除Spark应用程序向外部存储系统写数据进行数据交互这种方式外，各Spark应用程序间无法进行数据共享。
（2）Spark对于其使用的集群资源管理器没有感知能力，只要它能对Executor进行申请并通信即可。这意味着不管使用哪种资源管理器，其执行流程都是不变的。这样Spark可以与不同的资源管理器进行交互。
（3）Spark应用程序在整个执行过程中要与Executors进行来回通信。
（4）Driver端负责Spark应用程序任务的调度，因此最好Driver应该靠近Worker节点。

1.源码鉴赏-综述

在spark程序运行起来后，程序就会创建sparkContext，解析用户的代码，当遇到action算子时开始执行，但是在执行之前还有很多前提工作要在sparkContext中做的，请记住你要了解了sparkContext，你就了解了spark。

java中用到广播怎么办_java中用到广播怎么办_08

java中用到广播怎么办_spark_03

sparkContext构建的顶级三大核心：DAGScheduler，TaskScheduler，SchedulerBackend.

DAGScheduler是面向Job的Stage的高层调度器。
TaskScheduler是一个接口，是低层调度器，根据具体的ClusterManager的不同会有不同的实现。Standalone模式下具体实现的是TaskSchedulerlmpl。
SchedulerBackend是一个接口，根据具体的ClusterManger的不同会有不同的实现，Standalone模式下具体的实现是SparkDeloySchedulerBackend。

从整个程序运行的角度来讲，sparkContext包含四大核心对象：DAGScheduler,TaskScheduler，SchedulerBackend，MapOutputTrackerMaster。
SparkDeploySchedulerBackend有三大核心功能：

负责接收Master接受注册当前程序RegisterWithMaster。
接受集群中为当前应用程序而分配的计算资源Executor的注册并管理Executor。
负责发送Task到具体的Executor执行。
SparkDeploySchedulerBackend是被TaskSchedulerlmpl管理的。

sparkContext变量初始化

创建sparkContext的时候会做很多初始化事情，初始化很多变量。

java中用到广播怎么办_scala_10

java中用到广播怎么办_spark_03

事件监控总线：

java中用到广播怎么办_scala_12

java中用到广播怎么办_spark_03

第一个重要的初始化来了：这个地方是创建sparkEnv，就是创建actor，根据判断创建dirver-actor

java中用到广播怎么办_spark 获取广播变量_14

java中用到广播怎么办_spark_03

sparkContext的三大核心：这个只是一个定义getter和setter的方法，scala和java是有区别的，可以看看语法。但请时刻记住这三个核心。

java中用到广播怎么办_java中用到广播怎么办_16

java中用到广播怎么办_spark_03

从try开始了真正意义上的初始化操作了：396行。

java中用到广播怎么办_spark 获取广播变量_18

java中用到广播怎么办_spark_03

_conf = config.clone()：调用clone函数进行conf的复制

_conf.validateSettings()：检查一些关键配置和是否存在，一些默认配置如果不存在，添加默认设置参数。

_conf.set("spark.executor.id", SparkContext.DRIVER_IDENTIFIER)：请注意这个，其实在spark眼里没有driver的概念，都是Executor，只是id标签标记为了driver而已。

下面是三大核心的创建：

java中用到广播怎么办_spark_20

java中用到广播怎么办_spark_03

创建createTaskScheduler：根据master的运行情况创建：

java中用到广播怎么办_scala_22

java中用到广播怎么办_spark_03

这个地方用到了正则匹配来判断master的模式，我们以standalone的模式来讲解：

java中用到广播怎么办_scala_24

java中用到广播怎么办_spark_03

根据模式匹配:TaskSchedulerImpl 创建，注意集群模式默认重试4次，本地模式只尝试1次（val backend = new

java中用到广播怎么办_spark_26

java中用到广播怎么办_spark_03

可以自己观察一下其他模式的创建情况，但是会发现TaskSchedulerlmpl基本上是一样。

val scheduler = new

scheduler.initialize(backend)：创建资源配置池和资源调度算法，同时通过SchdulableBuilder.addTaskSetmanager：SchdulableBuilder会确定TaskSetManager的调度顺序，然后按照TaskSetManager来确定每个Task具体运行在哪个ExecutorBackend中。

java中用到广播怎么办_java中用到广播怎么办_28

java中用到广播怎么办_spark_03

创建_dagScheduler = new DAGScheduler(this)

java中用到广播怎么办_java中用到广播怎么办_30

java中用到广播怎么办_spark_03

启动taskScheduler

java中用到广播怎么办_scala_32

java中用到广播怎么办_spark_03

第六行（val number=sc.parallelize(1 to 9)）表示在本地加载9个数，还有另一种加载方式，使用外部数据 sc.textFile(“file:///”).下图为parallelize的源码

java中用到广播怎么办_应用程序_34

java中用到广播怎么办_spark_03

1、我们看到[T:ClassTag]可能非常奇怪是什么意思？

ClassTag
源码中的解释，在泛型中，type T是被擦除的。这个是非常有用的，在我们构建数组的时候，但是数组的类型我们也不知道，编译的时候不知道，但是运行的时候要知道，ClassTag只包含实际运行时的类的类型。
ClassTag会帮我们存储T的信息，根据类型推到可以指定T是I什么类型，这时候ClassTag就可以把此类型信息传递给编译器。ClassTag运行时指定在编译的时候无法指定的类型信息。
不需要写这样写，implicit m : Manifest[T]

2、紧接着小括号内是两个参数，一个是Seq是一个集合，代表任何类型任何数据的集合，第二个参数是输入：(seq: Seq[T],numSlices: Int = defaultParallelism)seq是一个序列，numSlices有一个默认值defaultParallelism，它的大小是有task决定，task在默认情况下又是core决定，RDD[T]代表返回类型是任何类型的RDD（即在此刻构建RDD），后面的withScope是一个函数，它是用来做DAG可视化的（DAG visualization on SparkUI），以前的sparkUI中只有stage的执行情况，也就是说我们不可以看到上个RDD到下个RDD的具体信息。于是为了在sparkUI中能展示更多的信息。所以把所有创建的RDD的方法都包裹起来，同时用RDDOperationScope 记录 RDD 的操作历史和关联，就能达成目标。

3、后面的assertNotStopped()是用来检查context时候存在的，由下图可以看出首先获取activeContext，检查是否为空，不空获取信息，如果获取的是一个挺尸的SparkContext抛出异常。

java中用到广播怎么办_spark_36

java中用到广播怎么办_spark_03

4、最后一句是关键：new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]())，如下是ParallelCollectionRDD源码

java中用到广播怎么办_spark_38

java中用到广播怎么办_spark_03

ParallelCollectionRDD这个类重写了RDD内部原始的三个方法。重点部分是getPartition这个函数。用于获取数据的分片信息。以上解释我们知道该函数是用于创建RDD，获取数据，获取sparkcontext信息，获取分片等重要信息，可以说该函数是程序的开始。

八、九行是自己写的一个函数

def mapDoubleFunc(num:Int):(Int,Int)={
  (num,num*2)
  }

该函数一个参数是Int类型，返回值是两个都是Int类型，大括号内是函数体，表示返回参数本身和参数成2

第十行（val

第十一行（mapResult.foreach(println)）表示把map的结果使用foreach进行循环，把所有值都逐一打印出来。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql的默认值没有生效的原因

下一篇：emwin 类似lvgl的menu控件

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯