数据自拟
package com.hadoop.mapreduce.Test4;
/**
* 求十亿(海量)数据中的最小的3个数
*/
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
/*
* 思路:
* 要求很多文件中的最小的三个数,我们可以把每个文件中的三个数求出来,
* 然后再在这些数中找最小的数,这样效率就比较高了
*/
public class Top3 {
/*
* map端:
* 可以定义一个集合来存最小的三个数,首先是将集合排序,然后保持集合的长度为3,即在集合的长度为4的时候删除最大的那个数
*/
static class MyMapper extends Mapper<LongWritable, Text, IntWritable, NullWritable> {
// 定义一个集合,这里我们是求最小的数所以用IntWritable
List<Integer> list = new ArrayList<Integer>();
IntWritable mk = new IntWritable();
@Override
protected void map(LongWritable key, Text value,
Mapper<LongWritable, Text, IntWritable, NullWritable>.Context context)
throws IOException, InterruptedException {
// 获取数据
String[] nums = value.toString().split("\t");
for (String s : nums) {
int num = Integer.parseInt(s);
list.add(num);
// 利用工具类排序
Collections.sort(list);
// 删除掉最大的那个数
if (list.size() == 4)
list.remove(3);
}
// 这里不能直接写context,因为我们有多个文件,如果直接在这里写每个文件的每一行就会有三个数
}
// 所以这里我们还要重写cleanup方法,每个文件只取三个数
@Override
protected void cleanup(Mapper<LongWritable, Text, IntWritable, NullWritable>.Context context)
throws IOException, InterruptedException {
// 遍历集合中的数据直接写出
for (Integer i : list) {
mk.set(i);
context.write(mk, NullWritable.get());
}
}
}
static class MyReducer extends Reducer<IntWritable, NullWritable, IntWritable, NullWritable> {
// 定义一个全局的计数器
int count = 0;
@Override
protected void reduce(IntWritable key, Iterable<NullWritable> values,
Reducer<IntWritable, NullWritable, IntWritable, NullWritable>.Context context)
throws IOException, InterruptedException {
// int count = 0;这个计数器一定要写成全局的,不然每次进入reduce方法都是从0开始
/*for (NullWritable v : values) {
count++;
context.write(key, v);
if (count == 3) {
break;
}
}*/
//这里说一下为什么不能像上面注释那样写
/*假入集合中的数据是这样的(第一行2组数,第二行3组数,第三行2组数,第四行3组数)
key value:
* 1 <null,null>
* 2 <null,null,null>
* 3 <null,null>
* 4 <null,null,null>
* 如果按注释的写法,假如有四组数(即这时候从map来了4个结果),第一次会输出第一行两个null里面的key即null、null
* 第二次会输出第二行中的第一个null,然后会跳出当前小循环(这里指循环第二行的3个null),却不会跳出大循环(这里值循环所有的四行)
* 输出完三个null后,正确的结果是程序应该结束,但是这里程序并没有结束,这个时候count++,count=4,还是是会继续输出,以及后面的count=5,也会继续输出
*很显然我们只需要小于等于3的
*/
for (NullWritable v : values) {
count++;
// 这样写就没问题
if (count <= 3)
context.write(key, v);
}
/*
* 这样写的话,每遍历一次null就输出一次,遍历三个null刚好输出完
* 就可以输出第一行的两个null,第二行的一个null就可以达到我们想要的结果了
*/
}
}
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
job.setJarByClass(Top3.class);
job.setMapperClass(MyMapper.class);
job.setReducerClass(MyReducer.class);
job.setMapOutputKeyClass(IntWritable.class);
job.setMapOutputValueClass(NullWritable.class);
job.setOutputKeyClass(IntWritable.class);
job.setOutputValueClass(NullWritable.class);
Path inpath = new Path("F:\\test2");
FileInputFormat.addInputPath(job, inpath);
Path outpath = new Path("F:\\test\\testout\\");
FileSystem fs = FileSystem.get(conf);
if (fs.exists(outpath)) {
fs.delete(outpath, true);
}
FileOutputFormat.setOutputPath(job, outpath);
job.waitForCompletion(true);
}
}
我的结果:
1
1
2