
之前一篇文章《spark sql 在mysql的应用实践》 已经简单描述了spark sql 在我们的业务场景的实践、开发遇到的问题和集群的队列分配问题。这篇主要介绍spark dataset 的cache,了解其参数,基本原理和简单的源码分析。


实际开发过程中,有时候很多地方都会用到同一个dataset, 那么每个地方遇到Action操作的时候都会对同一个算子计算多次,这样会造成执行效率低下的问题,而通过cache操作可以把dataset持久化到内存或者磁盘,提高执行效率。

   * Persist this RDD with the default storage level (`MEMORY_ONLY`).
  def cache(): this.type = persist()
   * Persist this RDD with the default storage level (`MEMORY_ONLY`).
  def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

可以看到,cache只有一个默认的缓存级别MEMORY_ONLY ,而persist可以根据情况设置其它的缓存级别。


deserialized:反序列化,将对象表示成一连串的字节;而反序列化就表示将字节恢复为对象的过程。序列化是对象永久化的一种机制,可以将对象及其属性保存起来,并能在反序列化后直接恢复这个对象 。


dataset的cache由spark的storage模块进行管理,具体实现由BlockManager完成,在逻辑上dataset以block为基本存储单位,dataset的每个partition经过处理后唯一对应一个Block(BlockId 的格式为 rdd_RDD-ID_PARTITION-ID ),根据设置的级不同,block可以存储在磁盘/堆内内存/堆外内存,在实现上,BlockManager用一个LinkedHashMap来管理堆内和堆外存储内存中所有的 Block 对象的实例,只有在dataset的所有block都remove完之后,在driver端的jvm才会释放对dataset的对象引用。

BlockInfo 源码:

  • 在缓存dataset到内存之前,我们读取dataset 的partition的每行record的,些 Record 的对象实例在逻辑上占用了 JVM 堆内内存的 other 部分的空间,同一 Partition 的不同 Record 的空间并不连续。RDD 在缓存到存储内存之后,Partition 被转换成 Block,Record 在堆内或堆外存储内存中占用一块连续的空间。将Partition由不连续的存储空间转换为连续存储空间的过程,Spark称之为”展开”(Unroll)。
  • Block 有序列化和非序列化两种存储格式,具体以哪种方式取决于该 RDD 的存储级别。非序列化的 Block 以一种 DeserializedMemoryEntry 的数据结构定义,用一个数组存储所有的对象实例,序列化的 Block 则以 SerializedMemoryEntry的数据结构定义,用字节缓冲区(ByteBuffer)来存储二进制数据。
  • 因为不能保证存储空间可以一次容纳 Iterator 中的所有数据,当前的计算任务在 Unroll 时要向 MemoryManager 申请足够的 Unroll 空间来临时占位,空间不足则 Unroll 失败,空间足够时可以继续进行。对于序列化的 Partition,其所需的 Unroll 空间可以直接累加计算,一次申请。而非序列化的 Partition 则要在遍历 Record 的过程中依次申请,即每读取一条 Record,采样估算其所需的 Unroll 空间并进行申请,空间不足时可以中断,释放已占用的 Unroll 空间。如果最终 Unroll 成功,当前 Partition 所占用的 Unroll 空间被转换为正常的缓存 RDD 的存储空间,如下图所示:
  • 由于同一个 Executor 的所有的计算任务共享有限的存储内存空间,当有新的 Block 需要缓存但是剩余空间不足且无法动态占用时,就要对 LinkedHashMap 中的旧 Block 进行淘汰,而被淘汰的 Block 如果其存储级别中同时包含存储到磁盘的要求,则要对其进行落盘,否则直接删除该 Block,按照最近最少使用(LRU)的顺序淘汰,直到满足新 Block 所需的空间。



对于cache之后的dataset,在executor执行过程中会以最近最少使用的(LRU)方式丢弃旧数据分区,如果确认数据不使用,可以使用dataset.unpersist()方式释放内存,但这只是将remove rdd block的消息发到drive 与executor的执行队列,并非立即执行,所以要避免大量的rdd、dataset同时remove造成通讯队列阻塞。

   * SparkContext.scala
   * Unpersist an RDD from memory and/or disk storage
  private[spark] def unpersistRDD(rddId: Int, blocking: Boolean = true) {
    env.blockManager.master.removeRdd(rddId, blocking)

以上是我对dataset cache的了解和对参考资料的整理,欢迎批评指正。