为什么要有二次排序?

Hadoop框架本身提供对Key的排序,但是正如我们在SQL中的双重排序要求一样,有时候我们会需要对key相同值按另一个字段排序的需求,这就使得我们必须要利用Hadoop的机制来间接实施二次排序。

 

步骤:

1、定义一个复合键(因为MapReduce只能对Key进行排序)

2、设置新的 comparator,用于对 Key 进行排序(等于Java中自定义Sort方法)

3、设置partitioner, 用于将数据对放在同一个reducer上(决定一个键值对去向哪里)
 

 

疑问:

在原本没有复合键的情况下,框架通过对key进行排序的方式将key相同的部分组合(group)在一起,那对于复合键来说,既然我已经分别定义了排序和分组,为什么还要指定分区(Partitioner)呢?

原理参考以下(来自于 ):

原理:

map阶段:

使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。

本例子中使用的是TextInputFormat,他提供的RecordReder会将文本的一行的行号作为key,这一行的文本作为value。这就是自定义Map的输入是<LongWritable, Text>的原因。

然后调用自定义Map的map方法,将一个个<LongWritable, Text>对输入给Map的map方法。注意输出应该符合自定义Map中定义的输出<IntPair, IntWritable>。最终是生成一个List<IntPair, IntWritable>。

在map阶段的最后,会先调用job.setPartitionerClass对这个List进行分区,每个分区映射到一个reducer。每个分区内又调用job.setSortComparatorClass设置的key比较函数类排序。

可以看到,这本身就是一个二次排序。如果没有通过job.setSortComparatorClass设置key比较函数类,则使用key的实现的compareTo方法。

 

reduce阶段:

reducer接收到所有映射到这个reducer的map输出后,也是会调用job.setSortComparatorClass设置的key比较函数类对所有数据对排序。

然后开始构造一个key对应的value迭代器。这时就要用到分组,使用jobjob.setGroupingComparatorClass设置的分组函数类。

只要这个比较器比较的两个key相同,他们就属于同一个组,它们的value放在一个value迭代器,而这个迭代器的key使用属于同一个组的所有key的第一个key。

最后就是进入Reducer的reduce方法,reduce方法的输入是所有的(key和它的value迭代器)。同样注意输入与输出的类型必须与自定义的Reducer中声明的一致。  

 

我的理解是,MapReduce是先将键值对分区到各个Reducer,再由各个Reducer进行内部排序,再分组,所以在一开始的时候就需要设置好Partioner。

否则自然键(我们希望用于分组的键)相同而复合键不同的键值对可能不在同一个Reducer上!那么即使在多个Reducer上分别进行排序和分组及写入记录,我们最后得到的结果并不是全局有序的(多个Reducer产生多个文件)。