spark: 简单的自定义RDD分区器

原创

wx62e0d796b5814 2024-02-29 10:18:37 ©著作权

文章标签 spark 大数据分布式 apache ide 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者wx62e0d796b5814的原创作品，请联系作者获取转载授权，否则将追究法律责任

一、定义分区器

package example

import org.apache.spark.Partitioner


class MyPartitioner extends Partitioner{
  override def numPartitions: Int = 2;

  override def getPartition(key: Any): Int = key match {
    case 1 => 0
    case 2 => 0
    case 3 => 0
    case 4 => 0


    case _ => 1
  }
}

二、使用自定义分区器

package example

import org.apache.spark.rdd.RDD
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}

object HelloRdd22 {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")
    sparkConf.set("spark.default.parallelism","4");
    val sc = new SparkContext(sparkConf);

    val rdd1: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4, 5), 2);
    val mapRdd: RDD[(Int, Int)] = rdd1.map((_, 1));
    //val result: RDD[(Int, Int)] = mapRdd.partitionBy(new HashPartitioner(2))
    val result: RDD[(Int, Int)] = mapRdd.partitionBy(new MyPartitioner())

    result.saveAsTextFile("output");


  }

}