Spark RDD详解与优化

  • Spark的特性
  • RDD的五大属性
  • Spark的运行模式
  • Spark提交模式
  • RDD的shuffle
  • RDD的广播变量
  • RDD的stage及宽窄依赖和血统
  • RDD的persist、cache与checkpoint
  • Spark分布执行时的序列化问题
  • Spark常见JDBC
  • hbase on Spark和Spark on hbase
  • Cassandra on Spark
  • Spark on hive和hive on Spark
  • RDD的常用算子
  • 转换算子(其返回值为另一个RDD的算子)
  • action算子(返回值非RDD或无返回值)
  • 自定义算子
  • Spark的优化
  • 提交
  • 参数
  • 算子的优化使用
  • 开启Kryo序列化
  • 使用fastutil优化数据格式

Spark的特性

RDD的五大属性

1.分区列表数,每个分区对应了一个task线程,其上限不超过读取数据的分区数

2.每个分区的计算函数,即该RDD的运行函数

3.RDD对其它RDD的依赖列表,是一个Array数组,可以通过getclass方法查看以来类型,若返回OneToOneDependency则是窄依赖返回ShuffleDependency是宽依赖

4.kv型RDD的分区函数,有HashPartitioner和RangePartitioner两大类,其中HashPartitioner是对key的内容取哈希,并将一定范围内的哈希值放入同一个分区中,能够解决绝大部分分区的数据热点问题;对于RangePartitioner,要求key必须可排序,采用水塘抽样算法将key划分一定分区,再将key按照分区归类。
对于不同业务场景也可以采用自定义分区,创建一个继承自Partitioner的类,重写numPartitions和getPartition即可

5.RDD的Partition的优先位置列表,能够指定是否优先使用本地数据,减少io。可通过.preferredLocations(split: Partition)方法查看,从高至低共有PROCESS_LOCAL(同一executor)、 NODE_LOCAL(同一个worker)、NO_PREF(无位置优先)、RACK_LOCAL(同一机架)、ANY(跨机架)五个级别。TaskScheduler会按照高优先级往低依次执行发送task给executor,如果连续5次等待时间超时(默认3s)则降低优先级再次发送。该时间由SparkConf()中的Spark.locality.wait设置,可通过增加该时间提高每一个task都能拿到最好的数据本地化级别

Spark的运行模式

local模式
不启用Spark集群,只在本地运行,一般用于本地测试

standAlone
Spark自带的独立运行模式,整个任务的资源分配由Spark集群的Master负责

Spark on yarn
的cluster模式可能经常会出现bug,比如运行的jar包不在$Spark_HOME/jars下很可能报错等自身的稳定性问题

Spark on Kubernetes
通过在k8s上运行Spark从长期上来讲优势肯定高于部署于yarn,比如k8s对非jvm框架的管理要比yarn方便很多,原生yarn不支持在离线混部(听说字节的yarn改造后可将多余的线上资源分配给线下,但也不够灵活),同时yarn的耦合度较高也使得不同组件的版本管理较为严格不能灵活分配。

Spark on Mesos
Mesos是Apache的老一代资源管理架构,其在分布式资源调度上不如yarn灵活,目前少有公司使用

Spark提交模式

每种运行模式具有两种提交模式(local模式除外):clientcluster
Client模式其Spark执行入口driver模块运行在本地机器上。优点是相对较稳定,可以随时通过客户端查看运行结果与日志;但一个庞大Spark任务的提交会导致driver进行大量的DAG分解与task分解,并不停将task分配给不同worker中的executor并等待其运行结束信息返回,这个过程会消耗大量内存和io资源

Cluster模式其driver运行在某一个集群中的worker上,需要将jar包传至每个worker都能访问到的位置如hdfs。优点是不会造成流量激增;缺点是不能够直接查看日志与运行结果,同时其稳定性略逊于Client模式(例如有时jar包在hdfs上但确无法通过指定路径找到,需要将jar包移至$Spark_HOME/jars下)

依据提交模式的特色,对于大公司可以选择使用Client模式,单独将几台高配机器作为Client模式的提交端,一方面便于使用azkaban或oozie统一调度,另一方面也能够直接调取结果和日志;对于小公司或不需要查看中间结果的数据(如结果直接落盘)的情况,使用Cluster模式则能避免流量激增的问题

RDD的shuffle

RDD对shuffle的方式在不同版本经过了多次衍变

spark 排序差值 spark rdd 大量数据排序_spark


其中HashBasedShuffle,每一个mapper会为reducer生成一个文件来保存计算的信息,并按hash划分至不同的task中去,这样会产生m*r个小文件,数量过大且io、gc频繁

引入File Consolidation文件合并机制,即在mapper后将同一个executor指向同一个reducer的文件合并,只会产生e*r个文件,仍会产生较多文件

进一步SortShuffleManager,其有两种模式,如果shuffle read task小于200且为非aggregate类算子会采用bypass模式,否则使用一般模式
一般模式,在内存写满并准备落盘前会首先数据进行排序,将排序后的数据多次溢写,整个map阶段完成后会将溢写的小文件合并生成一个大文件以及一个提供给task的数据起始结束start offset/end offset索引,最后由reducer去依据索引拉取该大文件中的数据
bypass模式则针对小数据场景,跳过了数据排序阶段,直接对数据取hash来进行task的分配,再溢写入小文件最后合并大文件并生成索引

Tungsten的优化,针对非aggregate算子提供更高效的内存和缓存,减少存储空间,提高缓存命中

RDD的广播变量

对于非大量数据的复用(例如频繁业务大表join逻辑小表),就可以将这些数据(RDD中的数据需要collect或collectAsMap)广播至每个executor的内存中,减少了数据的传输。使用Broadcast类的broadcast方法即可。合理使用能够减少shuffle的使用

RDD的stage及宽窄依赖和血统

stage(也叫taskset)的划分,首先对任务最后一个RDD创建finalStage,然后对其的父RDD依次做getShuffleDependencies判断是否有shuffle发生,如果发生,生成一个新的stage,如果没有,则该RDD和父RDD按顺序压栈,这样的话同一个stage的RDD就会在EventLoop里按顺序一起执行

而shuffle的发生则是触发了combineByKeyWithClassTag,所有PairRDDFunctions类下的方法都会触发shuffle,从用法上来说所有RDD聚合操作都会产生shuffle

进而Spark将是否触发stage划分的操作划为两类:宽依赖wide depencency和窄依赖narrow dependency,凡是触发shuffle及stage划分的都是宽依赖,反之则是窄依赖

整个任务的依赖关系图被称为血统lineage,它的作用是依据依赖关系在编译阶段就生成并为DAG提供stage划分点以及Spark的数据自动容错机制

当某一节点挂掉或数据丢失时,Spark会自动在其它可用节点计算丢失的数据部分即可,而依据血统则不需要重新跑一整遍程序。对于窄依赖只需重新计算其父RDD,对于宽依赖,则需要重新计算其每一个父分区

RDD的persist、cache与checkpoint

Spark能够手动将计算过程的数据进行保存,对于任何一个RDD,都能直接调用persist、cache与checkpoint方法

persist与cache会在触发action算子后缓存至指定位置,persist能够选择缓存至内存、磁盘及它们的混合策略(1.6+支持堆外缓存),而cache则是调用了persist只缓存至内存的方法。一般使用在某RDD被下游RDD多次使用时或一行RDD代码进行了多次操作(常见于mlib以及一行代码写太长的人)的场景时使用,其即便序列化后也会在Spark程序执行完成后自动删除,也可使用unpersist方法手动清理缓存

checkpoint则不同于上述缓存的临时性数据保存,可以落盘或存储在hdfs上,即便程序结束依旧存在,可以随时再运行恢复。同时该操作会清空checkpoint之前的血统依赖,且是启动另一个相同内容的job重新计算,故建议在checkpoint操作前先缓存。值得注意的是用户自定义的RDD及算子也会被保存至checkpoint中下次再运行,所以如果改变这些内容再次用checkpoint运行会导致不一样的结果

Spark分布执行时的序列化问题

在RDD的分布式运行中自然伴随着多次序列化/反序列化,而使用外部变量/类/函数若没继承自Serializable,在Spark运行中便会经常报org.apache.Spark.SparkException: Task not serializable这个错
所以解决办法就是让这些类都继承自Serializable,且成员变量也要序列化,而对于jdbc连接之类无需序列化的,可以用@transient注解跳过序列化

Spark常见JDBC

hbase on Spark和Spark on hbase

hbase on Spark
在构建SparkContext后可通过newAPIHadoopRDD方法来创建从hdfs中读取数据源的RDD,配合hbase的参数配置即可直接读取hfile中的数据。也可将RDD通过saveAsNewAPIHadoopDataset的方法写入hbase

Spark on hbase
比起利用hdfs作为中间层的方法,该方法提供了Spark与hbase无缝连接的方法,并可以使用hbase的bulkload方法(但实现都是社区库与第三方方法,稳定性值得考量)
通过构建HBaseContext类来创建hbaseRDD,直接使用scan、bulkPut方法来读写数据(以华为Spark-SQL-on-HBase)为例

Cassandra on Spark

C*在外企较火,在连接C*时需要依赖Spark-cassandra-connector,其sql风格写法是在构建SparkSession后直接使用write/read方法,并添加C*的连接属性

Spark on hive和hive on Spark

Spark on hive,通过脚本写入sql语句操作RDD算子,通过数据库驱动改变hive元数据,再读取/写入hive中

hive on Spark,将hive的mr运算替换为Spark运算,需要Spark编译去包含hive jar的版本,并配置hive及yarn的驱动即可

RDD的常用算子

转换算子(其返回值为另一个RDD的算子)

操作类

描述

map

对RDD中的每一个元素都执行一个指定的函数l来产生一个新的RDD(任何原RDD中的元素在新RDD中有且只有一个对应)

mapPartitions

与map功能类似,一次函数调用会处理一个partition所有的数据,而不是一次函数调用处理一条,性能相对高一些(易导致oom)

mapPartitionsWithIndex

相比于上一个多了分区索引的输入参数

flatmap

对RDD每个元素执行函数,并合并为一个元素

键值转换类

描述

mapValues

原RDD中的Key保持不变,与新的Value一起组成新的RDD中的元素

flatMapValues

针对flapmap使用的key不变,value改变,可多输出

cogroup(1到3个RDD)

相当于对RDD进行全外连接,关联不到为空

join类

描述(实质是先做cogroup,再flatmapvalues)

join

相当于左内连接

leftOuterJoin

左外连接

rightOuterJoin

右外连接

fullOuterJoin

全连接

运算类

描述

foreach

每个元素做运算

foreachPartition

每个分区做运算

reduce

每个元素做判断并剔除并减去空分区

去重类

描述

distinct

全部分区去重(实际上是RDD做了一个reduceByKey的操作将key聚合,再取key值)

distinct(numPartitions: Int)

指定分区去重

重分区类

描述

coalesce

采用HashPartitioner重新设置有几个分区,如果false则无法超过原分区,true才可以

repartition

上述参数为ture的简化方法

partitionBy

采用指定方法(可自定义)重分区,只能用于PairRDD

拆分/合并类

描述

randomSplit

将一个RDD按数组权重(加起来可不为1)重新分配成多个RDD,返回一个RDD数组

glom

将RDD内的所有同一泛型元素放到一个数组里

union

合并两RDD,元素不去重,不能合并不同类型的RDD

intersection

返回两个RDD的交集,去重

subtract

返回第一个RDD与第二个的差集

组合类

描述

zip

将两个相同分区数,元素数量的RDD组成(k,v)对形式,自身是key,另一个是value如果长度不同会抛异常

zipPartitions

方法里需要完成一个迭代器,通过迭代器输出多个RDD的组合结果

zipWithIndex

将RDD中的元素逐个与其id(索引号)组成键值对,例RDD1(“a”,“b”).zipWithIndex() -> (a,0),(b,1)

zipWithUniqueId

将RDD中的元素诸葛与其分区id组成键值对,分区id排列规则:从第一个分区第一个到最后一个分区第一个再到第一分区第二个。例RDD1(“a”,“b”,“c”,2).zipWithUniqueId() -> (a,0)(b,2),(c,1)

action算子(返回值非RDD或无返回值)

action算子类

描述

aggregateByKey

在初始值基础上,先对分区内元素运算,再对分区间运算

combineByKey

用于将(k,v)类型聚合为(k,c),key不变,对value进行处理

foldByKey

用于将(k,v)类型折叠、聚合。需要输入一个int,与一个函数,先将v与int进行函数,再将相同key按函数聚合

reduceByKey

用于将(k,v)类型每一个相同key的value经过函数互相计算

groupByKey

用于将(k,v)类型的每一个相同key的value组成一个集合

自定义算子

当Spark已有算子无法满足需求或可以将固定业务场景优化成一个算子时,可以使用自定义算子。定义一个具有隐式转行伴生对象的工具类即可,在伴生类中实现算子的操作方法

Spark的优化

提交

高可用模式的提交
在Spark-submit阶段指定一个以上master节点,这样一旦某个master挂掉会立马自动启用备用节点

job的提交
默认DAGScheduler采用submitJob方法,以非阻塞的形式提交作业,并返回JobWaiter,用户可以调用JobWaiter中的awaitResult方法等待作业完成,并取得结果,或者调用cancel方法来取消作业的运行
但也可指定runApproximateJob方法,以阻塞的形式提交作业,并设定等待时间,当等待时间到达时用户会得到近似或完整(作业运行完)的结果,在高峰时非核心业务提交时可采用该方法,防止占用资源过多

参数

spark-defaults.conf的调优
参数的修改建议在任务提交的时候以下述行式修改,这样是只针对本次任务,也可以修改Spark-defaults.conf或代码中SparkConf.set(“参数名”,“数值”)的形势修改

-submit --conf 参数名=数值

spark.locality.wait
本地化级别的响应等待时间(默认3s),建议增加,一般可减少io

spark.reducer.maxSizeInFlight
shuffle read task的缓冲大小(默认48m),如果会产生大量小文件建议调小,减少内存压力如24m

spark.shuffle.file.buffer
shuffle write task的缓冲输出流大小(默认32k),如果内存足够可以调大为64k,能够减少溢写次数提高io

spark.shuffle.io.maxRetries
shuffle reduce阶段拉取数据的尝试次数(默认3),超过该次数会导致任务失败,故运算大的任务可增大此参数如50,提高稳定性

spark.shuffle.io.retryWait
上述情况的等待间隔(默认5s),同样对于大任务增加此值如30s

spark.shuffle.memoryFraction
在executor中分配给shuffle read task的内存比例(默认0.2),如果持久化内容较少,可提高该比例,加速运算

spark.shuffle.sort.bypassMergeThreshold
SortShuffleManager触发bypass的阈值(默认200),如数据不需要排序,可提高,但可能会导致小文件较多

spark.defalut.parallelism
可提高task的数量,建议设为cpu核数的2-3倍

spark.memory.offHeap.enabled
可开启堆外内存(Spark1.6+),减少内存消耗

spark.memory.offHeap.size
设置堆外内存大小,建议10G起步

spark.executor.memoryOverhead
Spark向资源调度(如yarn)申请的堆外内存大小,需大于spark.memory.offHeap.size

算子的优化使用

reduceByKey和aggregateByKey相比groupByKey能够预聚合减少io
mapPartitions相比map能够减少调用,但可能会导致OOM
foreachPartitions相比foreach同上
repartitionAndSortWithinPartitions相比repartition与sort能够在重分区的同时进行排序,如需重分区并排序优先使用前者

开启Kryo序列化

SparkConf的Spark.serializer设置为org.apache.Spark.serializer.KryoSerializer,同时使用registerKryoClasses方法注册需要Kryo序列化的自定义类型

使用fastutil优化数据格式

加入fastutil依赖并用IntList替代List