文章目录
RDD : 弹性分布式数据集
五大特性
1.RDD是由一系列partition组成(block块对应partition),textFile底层调用的是MR读取hdfs上的数据的方法
默认一个block块对应一个split,split的大小和block大小一致,可以自己调整
2.函数作用在每一个partition(split)上
3.RDD之间有一系列的依赖关系(容错机制)
4.分区器作用在K,V格式的RDD上
5.RDD 提供一系列最佳的计算位置
问题一: 哪里体现了RDD的分布式和容错
1.partition分布在多台机器上
2.RDD之间有依赖关系,可以恢复数据,达到容错
问题二:哪里体现了弹性
partition的个数可以调整
问题三: 什么是K,V格式的RDD
RDD里的数据是一个二元组
问题四:为什么partition能提供一系列的最佳位置
1.partition对应的是一个个的block,hdfs的block
2.提供了最佳计算位置,能帮助spark达到移动计算而不是移动数据