目录

第一部分:SaprkCore部分

Spark简介

1、什么是RDD? RDD的5大特性。

2、怎么理解partition,如何合理的设置partition的数量。

3、RDD或者partition里面存储数据吗?怎么理解内存计算。

4、Spark中的hello world (word count)

5、Spark架构原理

6、创建初始的RDD

7、RDD算子操作

8、RDD持久化操作

9、RDD共享变量

10、Spark核心编程高级编程之基于排序机制的wordcount程序

11、Spark核心编程高级编程之二次排序

12、Spark分组取TopN

13、Spark内核源码深度剖析Spark内核架构深度剖析

14、SparkContext原理剖析和源码分析(了解)

15.Job触发流程原理剖析和源码分析

16、Shuffle原理剖析和源码分析

17、BlockManage原理剖析

 18、checkPoint算子

19、Spark性能优化

20、Spark源码编译

第二部分:SparkSQL部分

1、SparkSQL程序主入口

2、创建DataFrame的常用的方式

3、DataFrame的常用操作

4、为什么将RDD转为DataFrame?以及如何将RDD转为DataFrame?

5、Spark通用的load和save操作、Save Mode保存模式

6、parquet文件

7、Json文件

8、Hive数据源实战

9、JDBC数据源实战

10、SparkSQL内置函数的使用

11、SparkSQL UDF 自定义函数的使用

12、SparkSQL UDAF 自定义聚合函数的使用

13、SparkSQL 性能优化

14、核心源码深度剖析

15、案例实战 


第一部分:SaprkCore部分

Spark简介

详细介绍链接:

1、什么是RDD? RDD的5大特性。

    RDD是spark中的一种抽象,他是弹性分布式数据集.

    a) RDD由一系列的partition组成

    b) 算子作用在partition上

    c) RDD之间具有依赖关系

    d) partition提供了最佳计算位置(体现了移动计算不移动数据思想)

    e) 分区器作用在K、V格式的RDD上。

 哪里体现了弹性、分布式?

    弹性:partition可大可小,可多可少。RDD之间具有依赖关系;能做到很好的容错。

    分布式:partition分布在集群的不同节点上。

2、怎么理解partition,如何合理的设置partition的数量。

      在HDFS存储的数据是以block块的形式进行物理存储。RDD是Spark加载HDFS数据到内存中的抽象,里面不存储数据。RDD是由partion组成的,partion被分布在多个节点上。partion是数据的逻辑存储,实际上不存储数据集。当我们对RDD进行操作时,实际上是对每个分区中的数据并行操作。

    Spark从HDFS读入文件的分区数默认等于HDFS文件的块数(blocks),HDFS中的block是分布式存储的最小单元。如果我们上传一个30GB的非压缩的文件到HDFS,HDFS默认的块容量大小128MB,因此该文件在HDFS上会被分为235块(30GB/128MB);Spark读取SparkContext.textFile()读取该文件,默认分区数等于块数即235。

  如何设置合理的分区数

1、分区数越多越好吗?

不是的,分区数太多意味着任务数太多,每次调度任务也是很耗时的,所以分区数太多会导致总体耗时增多。

2、分区数太少会有什么影响?

分区数太少的话,会导致一些结点没有分配到任务;另一方面,分区数少则每个分区要处理的数据量就会增大,从而对每个结点的内存要求就会提高;还有分区数不合理,会导致数据倾斜问题。

3、合理的分区数是多少?如何设置?

总核数=executor-cores * num-executor

一般合理的分区数设置为总核数的2~3倍

3、RDD或者partition里面存储数据吗?怎么理解内存计算。

  RDD或者partition里面不存储数据,partition只是数据的逻辑存储。实际存储数据的地方在block中。

  在RDD依赖关系中,在没有action算子触发之前,RDD之间的依赖只是一种逻辑关系,不会触发真正的计算

 当action算子触发后数据进行计算,计算的中间结果存储在内存中。

4、Spark中的hello world (word count)

    使用java、scala和spark-shell开发wordCount程序。 spark-shell 其实就是spark的命令行,方便测试,验证程序

   java开发

/**
 * 本地测试wordCount
 *
 * @author yangshaojun
 * #date  2019/3/9 10:00
 * @version 1.0
 */
public class Demo000_WordCountLocal {
    public static void main(String[] args) {
        //  编写spark应用程序
        //  第一步:创建sparkconf对象,设置spark应用配置信息
        //  使用setMaster()设置Spark应用程序要连接的Spark集群的Master节点的url
        //  如果设置local则代表在本地执行
        SparkConf conf = new SparkConf().setAppName("wordCount").setMaster("local[2]");
        //  第二步: 创建JavaSparkContext对象
        //  在Spark中SparkContext是spark所有功能的入口,无论使用java、scala还是python编写都必须有一个sparkContext对象.
        //  它的作用:初始化spark应用程序所需要的的一些核心组件,包括调度器(DAGSchedule、TaskSchedule)
        //  还回去spark Master节点上进行注册等等。
        //  但是呢,在spark中编写不同类型的spark应用程序使用的spakContext是不同的,
        //  如果使用scala那么就是sparkContext对象
        //  如果使用java那么就是JavaSparkContext对象
        //  如果开发spark Sql程序那么就是SQLContext或者HiveContext
        //  如果是开发Spark Streaming程序,那么就是它独有的SparkContext。
        JavaSparkContext sc = new JavaSparkContext(conf);
        //  第三步:从数据源(HDFS、本地文件等)加载数据 创建一个RDD
        //  parkContext中根据文件的类型输入源创建的RDD的方法 是textFile()
        //  在java中,创建的普通RDD都叫做JavaRDD
        //  在这里呢,RDD有元素的概念,如果是HDFS或者是本地文件创建的RDD,其每个元素相当于文件的一行数据。
        JavaRDD<String> linesRDD = sc.textFile("data/sparkcore/wordcount");
        //  第四步: 对初始的RDD进行transformation操作
        //  将每一行拆分成单个的单词
        JavaRDD<String> words = linesRDD.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public Iterable<String> call(String line) throws Exception {
                String[] str = line.split(",");
                return Arrays.asList(line.split(","))
            }
        });
        JavaPairRDD<String, Integer> word = words.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) {
                return new Tuple2<String, Integer>(s, 1);
            }
        });
        JavaPairRDD<String, Integer> result = word.reduceByKey(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer int1, Integer int2) throws Exception {
                return int1 + int2;
            }
        });

        result.foreach(new VoidFunction<Tuple2<String, Integer>>() {
            @Override
            public void call(Tuple2<String, Integer> stringIntegerTuple2) throws Exception {
                System.out.println(stringIntegerTuple2);
            }
        });


    }
}

   提交spark程序到集群运行

  Note:

   1)如果要在spark集群上运行应用程序,需要将本地开发中的 setMaster()删除默认自己连接,同时将本地文件改为      hdfs文件。

   2)对Spark应用程序打成jar包,上传到服务器上

   3)编写spark-submit脚本、执行spark-submit脚本、提交应用程序到集群执行。

 ./spark-submit 
--class com.netcloud.bigdata.spark_core.basiclearning.demo.Demo000_WordCount 
--num-executor 3 \
--driver-memory 100m \
--executor-memory 100m \
--executor-cores 3 \
/opt/wordcount.jar

Note:在这里我们提交程序的时候没有加 --master spark://192.168.2.100:7077 表示任务的执行是在local模式下执行的。

      否则就是在standalone模式下执行。

scala开发

object Demo000_WordCount {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("word_count").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val linesRDD = sc.textFile("data/sparkcore/wordcount.txt")
    val wordsRDD = linesRDD.flatMap(line => line.split(","))
    val wordTuple = wordsRDD.map(word => (word, 1))
    val retRdd = wordTuple.reduceByKey((a: Int, b: Int) => (a + b))
    retRdd.foreach(println)
  }

}

 

  spark-shell开发(主要用于简单的测试)

spark sql 计算年份差_spark sql 计算年份差

深度剖析wordCount

spark sql 计算年份差_spark sql 计算年份差_02

Note:reduceBykey算子产生shuffle,什么是shuffle?shuffle就是数据重新进行分区、落地到磁盘的过程。

5、Spark架构原理

--  Application:用户编写的Spark应用程序。

--  Driver : Driver就是一个进程,我们编写的spark应用程序就在Driver上面;由Driver进程执行。根据任务提交的方式不同Driver所处的节点位置不同;Driver可能处在我们提交spark程序的机器上面,也有可能处在spark集群中的某个节点之上。

--  Master: 它是Spark集群的主进程;负责负责资源的调度和分配、和集群的监控。

-- Worker: 它是Spark集群的进程;通过自己的内存对partition进行存储,启动其他的进程或者线程对Rdd中的partition进行计算。

-- Executor:Executor是work节点的进程,在Executor上面可以启动多个Task线程。

-- Task:在Executor进程上面启动的线程。

Note:

Executor和Task其实就是负责执行,对RDD中的partition进行并行的计算,也就是执行我们对RDD定义的map、flatMap算子操作。

spark sql 计算年份差_HDFS_03

6、创建初始的RDD

parallelizer()方法

  2)使用本地文件创建RDD;主要是临时性处理一些存储大量的文件 textFile(path)方法可以支配到目录加载整个目录的文件。

  3)使用HDFS文件创建RDD;主要用于生产环境;进行离线批处理。 textFile(path)方法

7、RDD算子操作

  转换和行动算子。

 转换算子:它是懒执行的,当真正的触发行动算子后才进行之前的转换计算。

 行动算子:触发真正spark job的操作。 reduce 、collect 、count、first、take、countByKey()、takeSample、foreach、save

 等9种行动算子。

spark sql 计算年份差_spark sql 计算年份差_04

spark sql 计算年份差_HDFS_05

详细代码链接:

spark sql 计算年份差_应用程序_06

详细代码链接:


8、RDD持久化操作

不使用RDD持久化带来的问题:

spark sql 计算年份差_spark_07

持久化后的情况:

spark sql 计算年份差_spark_08

spark sql 计算年份差_应用程序_09

spark sql 计算年份差_应用程序_10

代码实例链接:

9、RDD共享变量

spark sql 计算年份差_应用程序_11

共享变量的原理

spark sql 计算年份差_spark_12

广播变量:

spark sql 计算年份差_HDFS_13

详细代码链接:

 

累加器:

spark sql 计算年份差_spark_14

详细代码链接:

10、Spark核心编程高级编程之基于排序机制的wordcount程序

   textFile - > flatMap -> map -> reduceByKey -> map -> sortByKey -> map -> collect 

   代码示例链接:

11、Spark核心编程高级编程之二次排序

* 1) 实现自定义的Key,要实现Ordered接口和Serializable接口,在key中实现自己对多个列的排序算法。
* 2) 将包含文本的RDD,映射成Key为自定义的key、value为文本的RDD。
* 3) 使用SortByKey算子 按照自定义的Key进行排序。
* 4) 再次映射,剔除自定义的key,只保留文本行。

示例代码链接:

12、Spark分组取TopN

1、对文本文件中的数字,获取最大的前三个。

2、对每个班级内的学生成绩,取出前三名。(分组TopN)

代码示例链接:

13、Spark内核源码深度剖析Spark内核架构深度剖析

spark sql 计算年份差_应用程序_15

对以上的内容如果全部掌握,只能算是熟练,谈不上精通,当对源码就行透彻的研究之后,才能算的上精通。

下面介绍的源码和内核的分析对于精通至关重要。

spark sql 计算年份差_应用程序_16

1、Application:就是自己编写的spark应用程序。

2、spark-submit:结合shell脚本 使用spark-submit命令提交 Application。

3、Driver:当spark应用程序提交的方式是client的方式的时候,会在提交Application的那台机器上启动一个Driver进程。

a) 这个Driver进程会去执行我们编写的Application应用程序,也就是我们自己书写的代码,执行的时候首先创建一个SparkContext。

b) 当SparkContext初始化的时候,做的最重要的两件事就是构造出 DAGScheduler和TaskScheduler。(也就是说sparkContext包含DAGScheduler和TaskScheduler)

c) TaskScheduler(通过自己的后台进程)负责去连接spark集群中的Master,接着向Master发送注册Application请求,Master接收到注册请求后注册application并且会使用自己的资源调度算法,去连接哪些worker,然后让这些可用的worker,为这个Application启动多个Executor进程(一个worker节点可以启动一个Executor也可以启动多个Executor进程)。

d) Executor进程启动之后,自己会反向注册到TaskScheduler。

当所有的 Executor进程启动了,并且自己都会反向注册到TaskScheduler上了。也就意味着Driver结束SparkContext的初始化了,会继续执行我们自己编写的代码。

a)当Driver每次执行到action,就会创建一个job,job会提交给DAGScheduler。

DAGScheduler会将job划分为多个stage(stage划分算法),每个stage创建一个TaskSet,然后每个TaskSet会给到TaskScheduler,TaskScheduler这个时候会把TaskSet中的每个task提交到Executor上执行(task算法)。

b) Executor(内部有一个线程池),每接收到一个task 都会有TaskRunner来封装task,然后从线程池里面取出一个线程来执行这个task。TaskRunner:将我们编写的代码,也就是要执行的算子以及函数,拷贝、反序列化、然后执行task。

c) task有两种:shuffMapTask和ResultTask,只有最后一个stage是ResultTask,之前的stage都是shuffMapTask。

d) 最后整个spark应用程序的执行,就是stage分作为TaskSet提交到executor执行,每个task针对RDD中的一个partiton执行我们的算子和函数,以此类推知道所有的操作执行完为止。

spark sql 计算年份差_spark_17

 13.1 Spark中的宽窄依赖

 使用wordcount例子讲解:

spark sql 计算年份差_应用程序_18

详细链接: 

13.2 Spark Application应用程序提交模式 

spark sql 计算年份差_spark sql 计算年份差_19

执行流程

1. 客户端提交一个Application,在客户端启动一个Driver进程。

2. 应用程序启动后会向RS(ResourceManager)发送请求,启动AM(ApplicationMaster)的资源。

3. RS收到请求,随机选择一台NM(NodeManager)启动AM。这里的NM相当于Standalone中的Worker节点。

4. AM启动后,会向RS请求一批container资源,用于启动Executor.

5. RS会找到一批NM返回给AM,用于启动Executor。

6. AM会向NM发送命令启动Executor。

7. Executor启动后,会反向注册给Driver,Driver发送task到Executor,执行情况和结果返回给Driver端。

总结

Yarn-client模式同样是适用于测试,因为Driver运行在本地客户端,负责调度application,Driver会与yarn集群中的Executor进行大量的通信,会造成客户端网卡流量的激增。好处就是在本地可以看到所有的log,方便测试。

ApplicationMaster的作用:

1. 为当前的Application申请资源

2. 给NodeManager发送消息启动Executor。

注意:ApplicationMaster申请资源的功能,并没有作业调度的功能。

spark sql 计算年份差_应用程序_20

执行流程

1. 客户机提交Application应用程序,发送请求到RS(ResourceManager),请求启动AM(ApplicationMaster)。

2. RS收到请求后随机在一台NM(NodeManager)上启动AM(相当于Driver端)。

3. AM启动,AM发送请求到RS,请求一批container用于启动Excutor。

4. RS返回一批NM节点给AM。

5. AM连接到NM,发送请求到NM启动Excutor。

6. Excutor反向注册到AM所在的节点的Driver。Driver发送task到Excutor。

总结

Yarn-Cluster主要用于生产环境中,因为Driver运行在Yarn集群中某一台NodeManager中,每次提交任务的Driver所在的机器都是随机的,不会产生某一台机器网卡流量激增的现象,缺点是任务提交后不能看到日志。只能通过yarn查看日志。

ApplicationMaster的作用:

1. 为当前的Application申请资源

2. 给NodeManager发送消息启动Excutor。

3. 任务调度。

停止集群任务命令:yarn application -kill applicationID

13.3 Spark任务提交命令

Yarn-client:

提交命令

./spark-submit

--master yarn

 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

或者

./spark-submit

--master yarn–client

 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

或者

./spark-submit

--master yarn

--deploy-mode  client

 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

yarn-cluster
提交命令

./spark-submit

--master yarn

--deploy-mode cluster 

--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

或者

./spark-submit

--master yarn-cluster

--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100
 

Standalone-Client

提交命令

./spark-submit

--master spark://master节点ip:7077

--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

Standalone-Cluster

./spark-submit

--master  spark://master节点ip:7077

--deploy-mode cluster 

--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

详细代码链接:

14、SparkContext原理剖析和源码分析(了解)

   14.1  SparkContext在进行初始化的时候创建 TaskScheduler和DagScheduler的原理过程剖析:

spark sql 计算年份差_spark_21

14.2 SparkContext初始化时创建TaskScheduler以及发送application注册请求源码分析:

创建过程详细代码链接:

14.3 Application注册到Master的原理和源码分析:

spark sql 计算年份差_应用程序_22

创建过程详细代码链接:

14.4 Application在Mastter上注册完成后(schedule方法执行)

当上面的整个过程已经执行完了(也就是说TaskScheduler如何创建、TaskScheduler如何向Master发送注册Application的请求,同时Master也如何完成对Application的注册);接着这里主要分析,Master是如何连接到集群可用的Worker,以及如何启动worker中的Executor进程的。

1)判断Master的状态,如果Master的状态不是active的话,直接返回、对于不是Active的Master 是不会进行资源调度的(连接可用的Master,启动Executor进程)。

2) Random.shuffle 方法将传入集合中的元素(将之前所有注册的workers信息)进行随机的打乱;同时返回集群中可用的worker(状态是alive的)

3)默认情况下,有多少个worker节点就会启动多少个Executor进程。但是我们也可以在提交application程序的时候指定Executor的数量。

在yarn模式下,直接指定 –num-executors 这个参数 。

或者使用多个参数共同决定 executor数目:

 executor 数量 = spark.cores.max/spark.executor.cores

  • spark.cores.max 是指你的spark程序需要的总核数
  • spark.executor.cores 是指每个executor需要的核数

或者:它们共同决定了当前应用 启动executor的个数

--total-executor-cores

--executor-cores

4)Task被执行的并行度

注意: 这里的core是虚拟的core而不是机器的物理CPU核,可以理解为就是Executor的一个工作线程。

而 Task被执行的并发度 = Executor数目 * 每个Executor核数。

至于partition的数目:

  • 对于数据读入阶段,例如sc.textFile,输入文件被划分为多少InputSplit就会需要多少初始Task。
  • 在Map阶段partition数目保持不变。
  • 在Reduce阶段,RDD的聚合会触发shuffle操作,聚合后的RDD的partition数目跟具体操作有关,例如repartition操作会聚合成指定分区数,还有一些算子是可配置的。

RDD在计算的时候,每个分区都会起一个task,所以rdd的分区数目决定了总的的task数目。
申请的计算节点(Executor)数目和每个计算节点核数,决定了你同一时刻可以并行执行的task。
比如的RDD有100个分区,那么计算的时候就会生成100个task,你的资源配置为10个计算节点,每个两2个核,同一时刻可以并行的task数目为20,计算这个RDD就需要5个轮次。
如果计算资源不变,你有101个task的话,就需要6个轮次,在最后一轮中,只有一个task在执行,其余核都在空转。
如果资源不变,你的RDD只有2个分区,那么同一时刻只有2个task运行,其余18个核空转,造成资源浪费。这就是在spark调优中,增大RDD分区数目,增大任务并行度的做法。

源码实例链接:

15.Job触发流程原理剖析和源码分析

当SparkContext初始化完成以后,紧接着代码会往下继续执行(执行我们编写的spark应用程序)

1) 一个Application程序可能包含多个Job,而Job的划分是根据action操作划分的,(也就是说一个job对应着一个action,一个application包含多个action,也就意味着包含多个job)

2) 当一个application中包含多个job的时候,首先执行第一个job(第一个action操作),当第一个job运行完成以后,才会执行第二个job(第二个action操作)以此类推。 

根据wordCount进行讲解:

spark sql 计算年份差_spark sql 计算年份差_23

15.1 Stage划分算法原理剖析

spark sql 计算年份差_应用程序_24

 

1)像reduceByKey这样的操作(产生shuffle的算子),它其实会产生3个RDD。

2)因为我们要进行reduceByKey,所以一个key对应的那些value必须让一个task去获取处理。

3)因此这里我们首先使用hashpartitioner对数据进行重新分区,即:将每个节点中多个partition中含有相同key的数据分到同一个分区的本地磁盘文件中;产生一个MapPartitionRDD。

Note:(这个时候指定了多少个分区就会写多少个文件中)每个节点重新进行分区的数据,落地到磁盘后,相同的key一定在一个文件中,一个文件中也可能有多个key。 因此各个节点重新分区后的磁盘文件中可能都含有相同key的文件。

4)shuffleRDD的产生会涉及到网络的传输。它的每个partition必须从各个节点每个partition(相同key的分区文件)上去拉取分区文件。

5)最后的MapPartitionRDD将拉取过来的shuffleRDD按照Key进行聚合。

这里的shuffleRDD相对于第一个MapPartitionRDD就是宽依赖。也就是说第一个MapPartitionRDD就是宽依赖的RDD。

15.2 DAGScheduler源码分析(stage划分算法、task最佳位置计算算法)

源码实例链接:

15.3 TaskScheduler提交TaskSets中的每个task到Executor执行源码分析

接着15.2最后一步继续分析:

TaskSetManager的作用(了解):

// 在TaskSchedulerImpl中,对一个单独的TaskSet的任务进行调度,TaskSetManager这个类负责追踪每个task
// 如果task失败的话,会负责重试task,直到超过重试的次数限制,并且会通过延迟调度,为这个TaskSet处理本地化调度机制。
// 它的主要接口就是resourceoffer ,在这个接口中,TaskSet会希望在一个节点上运行一个任务,并且接收任务的状态改变消息,
// 来知道他负责的task的状态改变了。

源码实例链接:

15.4 Executor原理剖析与源码分析

spark sql 计算年份差_HDFS_25

源码分析链接:

 15.5 Task原理剖析与源码分析

上面讲了task的执行是在一个线程池中并行的执行。

下面要讲的是,task是如何执行我们编写的算子的具体过程

spark sql 计算年份差_应用程序_26

 源码链接:

16、Shuffle原理剖析和源码分析

1、spark中什么情况下产生shuffle()

reduceByKey、groupByKey,sortByKey、countByKey、join、cogroup等操作。

2、默认情况下的shuffle原理的源码分析

问题:聚合之前,每一个相同key对应的value不一定都是在一个partition中,partition也不太可能在同一个节点上,因为RDD是分布式的弹性的数据集,RDD的partition极有可能分布在各个节点上。

如何聚合?

– Shuffle Write:上一个stage的每个shuffleMapTask就必须保证(使用默认分区器hashPartitioner)将自己处理的当前partition中数据相同key的写入各自的磁盘文件中。

– Shuffle Read:ResultTask就会从shuffle Write产生的磁盘文件中(可能在不同的节点上)去通过网络传输的方式拉取,这样就可以保证每一个相同key所对应的那些value都会汇聚到同一个节点上去处理和聚合。

下面的原理图只是分析了在一个节点多个task的执行情形,实际上其他节点也同样会进行Shuffle Write。
 

spark sql 计算年份差_spark_27

 

spark sql 计算年份差_应用程序_28

总结:

执行流程

a) 每一个ShuffleMapTask将partition中不同Key对应的value数据写到不同的bucket中;bucket起到数据缓存的作用。

b) 每个bucket文件最后对应一个磁盘小文件。 (磁盘小文件的数目=集群task(或partition)的数目*ResultTask的数目)

c) ResultTask 通过网络传输来拉取对应的磁盘小文件。

带来的问题:

产生的磁盘小文件过多,会导致以下问题:

a) 在Shuffle Write过程中会产生很多写磁盘小文件的对象。

b) 在Shuffle Read过程中会产生很多读取磁盘小文件的对象。

c) 在JVM堆内存中对象过多会造成频繁的gc,gc还无法解决运行所需要的内存 的话,就会OOM。

d) 在数据传输过程中会有频繁的网络通信,频繁的网络通信出现通信故障的可能性大大增加,一旦网络通信出现了故障会导致shuffle file cannot find 由于这个错误导致的task失败,TaskScheduler不负责重试,由DAGScheduler负责重试Stage。

3、优化后的shuffle原理图(合并机制)

spark sql 计算年份差_HDFS_29

总结:产生磁盘小文件的个数:(集群中core的个数(并行度)) *(ResultTask的个数)

4、Shuffle源码分析(Shuffle Write 和 Shuffle Read)

代码实例链接:

17、BlockManage原理剖析

BlockManageMaster在Driver节点上,而BlockManager在集群的其他节点上。

spark sql 计算年份差_spark_30

 18、checkPoint算子

控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘,还能切断RDD之间的依赖关系。

checkpoint 的执行原理:

1. 当RDD的job执行完毕后,会从finalRDD从后往前回溯。

2. 当回溯到某一个RDD调用了checkpoint方法,会对当前的RDD做一个标记。

3. Spark框架会自动启动一个新的job,重新计算这个RDD的数据,将数据持久化到HDFS上。

优化:对RDD执行checkpoint之前,最好对这个RDD先执行cache,这样新启动的job只需要将内存中的数据拷贝到HDFS上就可以,省去了重新计算这一步。
 

使用场景:

spark sql 计算年份差_HDFS_31

spark sql 计算年份差_spark sql 计算年份差_32

spark sql 计算年份差_spark_33

19、Spark性能优化

上面的Spark内核和下面将介绍的性能优化值得反复进行学习(重中之重)

1、性能优化的重要性

(Spark因为基于内存计算的;所以经常出现OOM、内部异常、文件丢失、task丢失等问题) 这个时候就需要对上述对的问题就索性优化操作。

spark sql 计算年份差_spark sql 计算年份差_34

spark sql 计算年份差_应用程序_35

 2、Spark的内存的消耗情况。

Spark在执行程序的时候内存都消耗在哪里了呢?

spark sql 计算年份差_spark_36

 3、判断程序消耗了多少内存

spark sql 计算年份差_spark sql 计算年份差_37

 Spark的性能优化主要是对内存进行优化。

4、将对下面的10项问题进行调优

 1)使用高性能的序列化类库 (Kryo)

数据序列化是为了对数据进行缓存到内存、持久化到磁盘以及进行网络的传输等。

spark默认使用的序列化机制是Java自身提供的序列化机制(这种默认的机制缺点就是序列化速度慢、序列化后的数据还是很大)

spark sql 计算年份差_spark sql 计算年份差_38

spark sql 计算年份差_应用程序_39

spark sql 计算年份差_应用程序_40

spark sql 计算年份差_spark sql 计算年份差_41

spark sql 计算年份差_spark_42

spark sql 计算年份差_HDFS_43

 2)优化数据结构

     优先使用数组而不是集合、避免多层自定义对象的嵌套、使用int类型的id替换string类型的id。

spark sql 计算年份差_spark sql 计算年份差_44

spark sql 计算年份差_HDFS_45

 3)对多次使用的RDD进行持久化或者checkpoint

spark sql 计算年份差_spark_46

 4)使用序列化的持久化级别

spark sql 计算年份差_HDFS_47

5)Java虚拟机垃圾回收调优

spark sql 计算年份差_应用程序_48

spark sql 计算年份差_HDFS_49

spark sql 计算年份差_HDFS_50

spark sql 计算年份差_spark_51

高级垃圾回收

spark sql 计算年份差_HDFS_52

spark sql 计算年份差_spark_53

 

spark sql 计算年份差_应用程序_54

 

spark sql 计算年份差_spark_55

 6)提高并行度

spark sql 计算年份差_HDFS_56

 

spark sql 计算年份差_spark sql 计算年份差_57

 7)广播共享数据

spark sql 计算年份差_HDFS_58

 8)数据本地化

 

spark sql 计算年份差_HDFS_59

spark sql 计算年份差_spark_60

 

spark sql 计算年份差_spark_61

  9)reduceByKey和groupBykey

spark sql 计算年份差_spark_62

spark sql 计算年份差_HDFS_63

 

spark sql 计算年份差_spark sql 计算年份差_64

10)shuffle性能优化

spark sql 计算年份差_应用程序_65

spark sql 计算年份差_HDFS_66

spark sql 计算年份差_spark sql 计算年份差_67

详细解释链接: 

20、Spark源码编译

spark sql 计算年份差_HDFS_68

第二部分:SparkSQL部分

1、SparkSQL程序主入口

在spark1.x 使用的是SQLContext 和HiveContext
在Spark2.x之后统一使用sparkSession

2、创建DataFrame的常用的方式

从已经存在的RDD生成,从hive表、或者其他数据源(本地或者HDFS)

详细代码链接:

3、DataFrame的常用操作

详细代码链接:

4、为什么将RDD转为DataFrame?以及如何将RDD转为DataFrame?

RDD转为DataFrame 可以将HDFS上的任何构建RDD的数据使用SparkSQL进行SQL查询,此功能无比的强大,想象一下
针对HDFS上的数据,直接就可以使用SQL进行查询了。

SparkSQL支持两种形式将RDD转为DataFrame。
反射的方式
适合schema信息是确定的情形。
a) Case class 定义了表的 Schema。
b) Case class 的参数名使用反射读取并且成为了列名。 
c) Case class 也可以是嵌套的或者包含像 SeqS 或者 ArrayS 这样的复杂类型。

动态转换编写代码的方式:
适合schema信息不确定,需要动态的从mysql db或者配置文件加载的。通过编程的方式创建元数据。
a) 将从文本文件中创建的原始RDD(RDD[String])使用map函数转为ROW类型的RDD (RDD[Row])。
b) Step 1 被创建后,创建 Schema 表示一个 StructType(StructField(name,StringType,true),...) 匹配 RDD 中的 Rows(行)的结构。
c) 通过 SparkSession 提供的 createDataFrame 方法应用 Schema 到 RDD 的 RowS(行)。

详细代码链接:

5、Spark通用的load和save操作、Save Mode保存模式

对于Spark SQL的DataFrame来说,无论从什么数据源(json、csv、parquet等格式对的文件)创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作,主要将DataFrame中的数据保存到文件中。

Java版本

DataFrame df=sqlContext.read().load("user.parquet")

df.select("name","age").write().save("result.parquet")

scala版本

val df=sqlContext.read.load("user.parquet")

sf.select("name","age").write.save("result.parquet")

手动指定数据源类型:(比如将json格式的文件保存到parquet文件中)

Java版本

DataFrame df=sqlContext.read().format("json").load("people.json")

df.select("name","age").write().format("parquet").save("result.parquet")

scala版本

val df=sqlContext.read.format("json").load("user.json")

df.select("name","age").write.format("parquet").save("result.parquet")

Save Mode 的四种保存模式 

1)Save 操作可以使用 SaveMode,可以指定如何处理已经存在的数据。

2)Save Mode 的四种保存模式 SaveMode.ErrorIfExists、SaveMode.Append、SaveMode.Overwrite、SaveMode.Ignore

如:jsonDF.write.mode(SaveMode.ErrorIfExists).save("data/sparksql/people.parquet")

6、parquet文件

a) 编程的方式加载parquet文件

编程的方式加载parquet文件创建DataFrame;然后将其注册到临时表然后使用SQL查询需要的数据;对查询出来的DataFrame进行transform操作,处理数据。

详细代码链接:

b) parquet数据源自动分区的推断

表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性。在一个分区表中不同分区的数据通常存储在不同的目录中,分区列的值通常就包含在分区目录的目录名中。在SparkSQL中的parquet数据源,支持自动根据目录名推断出分区的信息。

如:我们将人口数据存储在分区表中,并且使用性别和国家作为分区表。那么目录结构可能如下表示:

path
└── to
    └── table
        ├── gender=male
        │   ├── country=US
        │   │   └── data.parquet
        │   ├── country=CN
        │   │   └── data.parquet
        └── gender=female
            ├── country=US
            │   └── data.parquet
            ├── country=CN
            │   └── data.parquet
            └── ...

spark sql 计算年份差_HDFS_69

详细代码链接:

c) 合并schema (元数据)

spark sql 计算年份差_spark sql 计算年份差_70

详细代码链接:

7、Json文件

加载json文件为DataFrame、将其注册为临时表,使用sql进行数据的转换操作。

8、Hive数据源实战

在实际项目开发中,SparkSQL是从hive中加载数据,并进行数据的转换操作的。

spark sql 计算年份差_spark sql 计算年份差_71

spark sql 计算年份差_spark_72

  

1、第一个功能:使用hiveContext 的sql或者hql方法;可以执行hive中能够执行的hqlQL语句。
2、 第二个功能 执行sql返回一个DataFrame 用于查询。
3、第三个功能 使用saveAsTable()方法 将DataFrame中的数据保存到hive表中。
4、第四个功能  可以使用table() 方法 针对hive表 直接创建DataFrame。

详细代码链接:

9、JDBC数据源实战

spark sql 计算年份差_HDFS_73

详细代码链接:

10、SparkSQL内置函数的使用

 

1)聚合函数

案例实战:根据用户每天的访问和购买日志,统计每天的uv和销售额。

详细代码链接:

2) 开窗函数(窗口函数)

spark 1.4x 之后,为SparkSQL和DataFrame引入了开窗函数,比如最经典、最常用的 row_number() 可以让我们实现分组取topN的逻辑。

案例:统计每个种类的销售额排名前3的产品。

详细代码链接:

11、SparkSQL UDF 自定义函数的使用

 创建一个自定义函数,用来统计字符串的长度。

1)定义和注册自定义函数

a) 定义函数: 自己编写匿名函数。

b) 注册函数: SQLContext.udf.register(param1,func)  其中 param1是函数的名字,func是匿名函数用来处理业务逻辑。

2)使用自定义函数(在自己的sql中使用)

详细代码链接:

12、SparkSQL UDAF 自定义聚合函数的使用

UDF自定义函数,其实更多的是针对单行输入,返回一个输出。

而 UDAF是针对多行输入,进行聚合计算后,返回一个输出,功能更加强大。

详细代码链接:

13、SparkSQL 性能优化

spark sql 计算年份差_HDFS_74

14、核心源码深度剖析

 

15、案例实战 

SparkSQL与SparkCore结合 统计每日top3热点搜索词

数据格式:

日期    用户    搜索词    城市    平台    版本

需求:

1)筛选出符合查询条件的数据

2)统计出每天搜索uv排名前3的搜索词

3)将数据保存到hive表