一、groupBy

将数据根据指定的规则进行分组, 分区默认不变,但是数据会被打乱重新组合,我们将这样的操作称之为 shuffle。极限情况下,数据可能被分在同一个分区中,一个组的数据在一个分区中,但是并不是说一个分区中只有一个组。

例子:将奇数偶数分为两组

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 2)

    val groupRDD: RDD[(Int, Iterable[Int])] = rdd.groupBy(_ % 2)

    groupRDD.collect().foreach(println)

    sc.stop()
  }

二、filter

将数据根据指定的规则进行筛选过滤,符合规则的数据保留,不符合规则的数据丢弃。当数据进行筛选过滤后,分区不变,但是分区内的数据可能不均衡,生产环境下,可能会出现数据倾斜。

例子:过滤出奇数

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4))
    
    val filterRDD: RDD[Int] = rdd.filter(_ % 2 == 1)

    filterRDD.collect().foreach(println)

    sc.stop()
  }

三、sample

根据指定的规则从数据集中抽取数据
sample算子需要传入三个参数
第一个参数表示,抽取数据后是否将数据放回 ture(放回),false(丢弃)
第二个参数表示:
1.如果抽取不放回:每条数据被抽取的概率,基准值
2.如果抽取放回:表示每条数据可能被抽取的次数
第三个参数表示,抽取数据时随机算法的种子,不传递的话,那么使用当前系统时间

例子:

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd=sc.makeRDD(List(1,2,3,4,5,6,7,8,9,10))

    println(rdd.sample(false, 0.4,1).collect().mkString(","))
    println(rdd.sample(false, 0.4).collect().mkString(","))
    println(rdd.sample(true, 2).collect().mkString(","))

    sc.stop()
  }

四、distinct

用于将数据集中重复的数据去重

例子:去除重复数据

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)
    
    val rdd=sc.makeRDD(List(1,2,3,4,1,2,3,4))

    val rdd1: RDD[Int] = rdd.distinct()

    rdd1.collect().foreach(println)

    sc.stop()
  }

五、coalesce

根据数据量缩减分区,用于大数据集过滤后,提高小数据集的执行效率
当 spark 程序中,存在过多的小任务的时候,可以通过 coalesce 方法,收缩合并分区,减少分区的个数,减小任务调度成本

第一个参数是预期分区数,第二是参数是是否开启shuffle
第二个参数是是否开启shuffle
coalesce算子默认情况下不会将分区的数据打乱重新组合
这种情况下的缩减分区可能会导致数据不均衡,出现数据倾斜
如果想让数据均衡,可以进行shuffle处理

coalesce算子也可以扩大分区,但如果不进行shuffle操作,是没有意义的,不起作用

例子:将三个分区缩减为两个分区

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd=sc.makeRDD(List(1,2,3,4,5,6),3)
    
    //val newRDD: RDD[Int] = rdd.coalesce(2)
    val newRDD: RDD[Int] = rdd.coalesce(2,true)

    newRDD.saveAsTextFile("output")

    sc.stop()
  }

六、repartition

该操作内部其实执行的是 coalesce 操作,参数 shuffle 的默认值为 true,也就是默认开启shuffle无论是将分区数多的,RDD 转换为分区数少的 RDD,还是将分区数少的 RDD 转换为分区数多的 RDD,repartition操作都可以完成,因为无论如何都会经 shuffle 过程。

例子:从两个分区扩大为三个分区

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd=sc.makeRDD(List(1,2,3,4,5,6),2)

    val newRDD: RDD[Int] = rdd.repartition(3)

    newRDD.saveAsTextFile("output")

    sc.stop()
  }

七、sortBy

该操作用于排序数据。在排序之前,可以将数据通过传入的函数表达式进行处理,之后按照传入的函数表达式处理的结果进行排序,默认为升序排列。排序后新产生的 RDD 的分区数与原 RDD 的分区数一致。中间存在 shuffle 的过程。

第一个参数:依据指定规则来排序
第二个参数:默认为升序(true),降序(false)

sortBy默认情况下不改变分区,但是中间存在shuffle操作

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd=sc.makeRDD(List(7,4,3,5,6,1),2)

    val newRDD: RDD[Int] = rdd.sortBy(num => num)

    newRDD.saveAsTextFile("output")

    sc.stop()
  }