前言:这是Spark理论的学习笔记,代码和操作极少,请自行熟悉代码。这篇幅会越来越长,并且不断深入,没什么意外的话笔者会在空闲时候慢慢进行更新。如果有错误的地方,请大佬指出让我改进,感激不尽!
1.Spark概述
1.1简介
Spark是一种快速、通用、可扩展的大数据分析引擎,是基于内存计算的大数据分布式计算框架。基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。
Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。
1.2它的特点
1.快
与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。
2.易用3.通用4.兼容性 ......安装,搭建集群这些不是本文的重点 这里不多介绍 - 直接开干!
2.RDD(弹性分布式数据集)
spark编程离不开rdd,那么什么是rdd呢?它为什么出现呢?
首先来看看它出现的原因:
在hadoop流行的时候,大家使用mapreduce来分布式地进行分数据处理。熟悉mr变成原理的话就知道,它在map结束阶段把结果溢出到磁盘,Reduce操作后把结果也输出到磁盘。这注定存在IO和网络传输这些数据的开销,使得其效率降低。如若进行一些迭代算法,或者交互式数据挖掘,反复的磁盘操作带来巨大的开销。
所以RDD出现了,它很大成都解决了这个问题,它是一个分布式的内存抽象,一个高度受限(只读)的共享内存模型,让我们详细的来了解它。
我们来看看官方的解释:
RDD是弹性分布式数据集。它是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。
还有RDD官方的5个特点(下面是我扩展的解释):
1)a list of partitions : 一组分片(Partition)。
对于RDD来说,每个分片都会被一个计算任务处理。分片有可能存储在集群的不同机器中用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。
2)a function for computing each split : 一个作用在所有分片的方法
方法执行对象是每一个分片,RDD要求其抽象类所有子类实现compute的函数来达到这个目的。
3)a list of dependencies on other RDDs : 依赖于其他RDD
RDD间存在依赖关系,对RDD的每次转换操作会生成新的RDD,他们类似于流水线一般前后依赖,在部分分区丢失数据时,可以通过依赖关系重新计算。我们称这依赖为血统,下文会再介绍。
4)Optionally,a Partitioner for Key-value RDDs : 对于key - value 形式,有一个分片的规则方法
RDD内部存储的是k-v 形式的数据时,分片函数才会有值,而其他类型的RDD的Parititioner的值是None。该属性决定了自身的分片数量,也决定了父RDD 在 Shuffle过程输出的分片数。
5)Optionally, a list of preferred locations to compute each split on : 可选地,有首选地点计算每个分片
按照“移动数据不如移动计算”的理念,Spark进行任务调度的时候,会尽可能地将计算任务分配到其所要处理数据块的存储位置。
从上面的介绍,你大概知道了RDD是个什么东西,当然RDD作为spark的基础远不止这些,下面慢慢介绍!
2.1RDD的抽象
1)RDD是只读的、分区记录的集合。
2)RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。
3)RDD不需要物化。RDD含有如何从其他RDD衍生(即计算)出本RDD的相关信息(即Lineage),据此可以从物理存储的数据计算出相应的RDD分区。
2.RDD的transformation和action
对RDD的操作有transformation(转换)和action(执行)两种
所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住应用转换动作。只有当发生一个action动作时,这些转换才会真正运行。这种设计让Spark更加有效率地运行。
为什么RDD是弹性的?这大概是初学者最难明白的一个词了。下面这些特性都表明它的弹性
3.基于血统(Lineage)的高效容错:
1)MapReduce及其相关模型的优势在于自动容错、位置感知性调度和可伸缩性,rdd保持了这些优点。其中最难实现的就是容错性。容错性的实现一般有数据检查点和记录数据的更新这两种。
2)RDD只支持粗粒度的转换(即在大量记录上执行的单个操作),因为这个特点RDD选择记录更新的方式。再看看前文 我对官方提供的第三点特点的解释:RDD间存在依赖关系,对RDD的每次转换操作会生成新的RDD,他们类似于流水线一般前后依赖,在部分分区丢失数据时,可以通过依赖关系重新计算。这使得RDD不需要存放真实的数据,它里面存储的是如何通过父RDD获得自身的方式。对RDD使用toDebugString可以看到它的血统。
这里必须引入一下宽依赖和窄依赖的概念:
来上一张经典的图
窄依赖我们形象的比喻为独生子女(每一个父RDD的Partition最多被子RDD的一个Partition使用)
宽依赖我们形象的比喻为多个孩子(多个子RDD的Partition会依赖同一个父RDD的Partition)
这个概念在后文的文章提到的stage就是以此划分的
4.RDD的缓存机制:
rdd可以使用persist方法或cache方法将计算结果缓存,便于重用,这也是RDD持久化的一部分。
这两者是有区别的,spark支持多种缓存级别,而从源码来看cache()调用的是 MEMORY_ONLY
(仅在内存中),他底层使用的是persist方法,二persist可以指定多种存储级别。
另外,RDD在内存不够用时也会自动的写入磁盘中,这些机制让RDD十分灵活。
值得一提RDD的persist或cache是transformation动作,遇到action才会真正执行
5.checkpoint
1)RDD的Lineage或许会很长,比如执行了100次转换,若果这时候数据丢失,恢复起来可能会很耗时间。所以这时候我们可以通过checkpoint把处理到某个程度的数据存到安全的地方(hdfs就很全),
这时候前面的RDD就不再需要前面的依赖了,通过RDD中的dependencies_判断是否做过 ck。(dependencies_ 用来存放checkpoint后的结果的,如为null,则就判断没checkpoint)
2)如果让你做checkpoint会选择在哪呢?
显然我们尽量在宽依赖的操作下使用checkpoint。窄依赖是线性的,如果一个patition数据丢失,可以直接通过之前的分片计算得来,而宽依赖要等前面多条线性的数据全部处理完毕再执行shuffle,这时候丢失数据,那么就要面临全部重新计算了。
从以上特点是不是觉得RDD像个软体弹球一般,又灵活又有弹性呢
6.再来看看有向无环图(DAG)
DAG(Directed Acyclic Graph)叫做有向无环图,原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成不同的Stage,对于窄依赖,partition的转换处理在Stage中完成计算。对于宽依赖,由于有Shuffle的存在,只能在parent RDD处理完成后,才能开始接下来的计算,因此宽依赖是划分Stage的依据。
以上是RDD中大部分基础知识,笔者刚刚入门,只有日后在下面补充更多的东西
1.RDD里面到底存了什么
RDD里面并没有存储真正的数据信息,它存储的是上一代RDD通过什么操作获取到了自己,还有一些数据类型,分片方法等。那么它的数据到底从何而来?
其实它是有存储数据的来源的,在RDD血统的顶层,初代RDD,它不依赖任何RDD,因为它就是依赖的开始。它存储了任务所需的数据的分区信息,以及如何读取这些分区。而数据的读取发生在task中,只有任务分发到了Executor上运行了,这时候才开始读取。
Spark中RDD的接口