hive里面map join优化
小表数据-> HashtableFiles-> Distributed Cache->遍历匹配

离线Batch SQL Join三种方式
Nested-loop Join 内嵌遍历的方式
Sort-Merge Join 归并排序 要求是有序数据集
Hash Join 将一个数据集转换为Hash Table,再进行遍历匹配

实时Streaming SQL Join
Nested-loop Join 和 Hash Join 经过一定的改良则可以满足实时 SQL 的要求。

存在的问题是随着时间的增长,内存占用过多,单个元素的匹配效率低

需要可以设置一个缓存剔除策略,将不必要的历史数据及时清理,即解决内存占用过多的问题

Flink SQL的Join
Regular Join 
可以对表所有历史记录以及未来的记录进行匹配,没有缓存剔除策略,因为资源问题,一般只用做有界数据流的Join

Time-Windowed Join
利用窗口给Join设定一个时间界限,超出时间范围的数据不可见并清理掉,时间可以是系统时间也可以是事件时间

两个输入需要缓存时间下界以上的数据,
可以看作是合理范围内的缓存剔除策略,本身flink处理数据的场景大部分是依赖于事件时间和水位

Temporal Table Join
作为时间窗口Join的补充,解决了维表join的业务场景


spark中的cache/persist/checkpoint
cache 能够让重复数据在同一个 application 中的 jobs 间共享。RDD的cache()方法其实调用的就是persist方法,缓存策略均为MEMORY_ONLY。

cached RDD 怎么被读取

下次计算(一般是同一 application 的下一个 job 计算)时如果用到 cached RDD,task 会直接去 blockManager 的 memoryStore 中读取。具体地讲,当要计算某个 rdd 中的 partition 时候(通过调用 rdd.iterator())会先去 blockManager 里面查找是否已经被 cache 了,如果 partition 被 cache 在本地,就直接使用 blockManager.getLocal() 去本地 memoryStore 里读取。如果该 partition 被其他节点上 blockManager cache 了,会通过 blockManager.getRemote() 去其他节点上读取。

cache与persist的唯一区别在于: cache只有一个默认的缓存级别MEMORY_ONLY ,而persist可以根据StorageLevel设置其它的缓存级别。这里注意一点cache或者persist并不是action

cache 和 checkpoint 的显著区别是:cache把 RDD 计算出来然后放在内存中, 但是RDD 的依赖链也不能丢掉, 当某个点某个 executor 宕了, 上面cache 的RDD就会丢掉, 需要通过依赖链重新计算出来;而 checkpoint 是把 RDD 保存在 HDFS中, 是多副本可靠存储,所以依赖链就可以丢掉了,就斩断了依赖链,因为checkpoint是需要把 job 重新从头算一遍, 最好先cache一下, checkpoint就可以直接保存缓存中的 RDD 了, 就不需要重头计算一遍了, 对性能有极大的提升。

cache 机制是每计算出一个要 cache 的 partition 就直接将其 cache 到内存了。但 checkpoint 没有使用这种第一次计算得到就存储的方法,而是等到 job 结束后另外启动专门的 job 去完成 checkpoint 。也就是说需要 checkpoint 的 RDD 会被计算两次。因此,在使用 rdd.checkpoint() 的时候,建议加上 rdd.cache(),这样第二次运行的 job 就不用再去计算该 rdd 了,直接读取 cache 写磁盘。

persist与checkpoint
rdd.persist(StorageLevel.DISK_ONLY) 与 checkpoint 区别的是:前者虽然可以将 RDD 的 partition 持久化到磁盘,但该 partition 由 blockManager 管理。一旦 driver program 执行结束,也就是 executor 所在进程 CoarseGrainedExecutorBackend stop,blockManager 也会 stop,被 cache 到磁盘上的 RDD 也会被清空(整个 blockManager 使用的 local 文件夹被删除)。而 checkpoint 将 RDD 持久化到 HDFS 或本地文件夹,如果不被手动 remove 掉( 话说怎么 remove checkpoint 过的 RDD? ),是一直存在的,也就是说可以被下一个 driver program 使用,而 cached RDD 不能被其他 dirver program 使用。


Spark相比Hadoop的优势在于尽量不去持久化,所以使用 pipeline,cache 等机制。用户如果感觉 job 可能会出错可以手动去 checkpoint 一些 critical 的 RDD,job 如果出错,下次运行时直接从 checkpoint 中读取数据。唯一不足的是,checkpoint 需要两次运行 job。