MapReduce核心思想

分而治之,先分后和:将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终进行合并。

MapReduce由Map和Reduce组成

Map: 将数据进行拆分

Reduce:对数据进行汇总

理论看不懂,跑个Java代码会有直观的印象。
这里我用的idea,使用的是maven项目,下面这个是pom文件,你得导这些包才能用hadoop
而且你得安装并配置hadoop2.7.4环境变量。如果你已经配置完毕,就继续吧,如果没有,可以看这个

pom文件:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.czxy</groupId>
    <artifactId>hadoop01</artifactId>
    <version>1.0-SNAPSHOT</version>


    <repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
        </repository>
    </repositories>
    <dependencies>
        <dependency>
            <groupId>org.apache.Hadoop</groupId>
            <artifactId>Hadoop-client</artifactId>
            <version>2.6.0-mr1-cdh5.14.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.Hadoop</groupId>
            <artifactId>Hadoop-common</artifactId>
            <version>2.6.0-cdh5.14.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.Hadoop</groupId>
            <artifactId>Hadoop-hdfs</artifactId>
            <version>2.6.0-cdh5.14.0</version>
        </dependency>

        <dependency>
            <groupId>org.apache.Hadoop</groupId>
            <artifactId>Hadoop-mapreduce-client-core</artifactId>
            <version>2.6.0-cdh5.14.0</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/junit/junit -->
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.11</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.testng</groupId>
            <artifactId>testng</artifactId>
            <version>RELEASE</version>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                    <encoding>UTF-8</encoding>
                    <!--    <verbal>true</verbal>-->
                </configuration>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.4.3</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <minimizeJar>true</minimizeJar>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
            <!--  <plugin>
                  <artifactId>maven-assembly-plugin </artifactId>
                  <configuration>
                      <descriptorRefs>
                          <descriptorRef>jar-with-dependencies</descriptorRef>
                      </descriptorRefs>
                      <archive>
                          <manifest>
                              <mainClass>cn.itcast.Hadoop.db.DBToHdfs2</mainClass>
                          </manifest>
                      </archive>
                  </configuration>
                  <executions>
                      <execution>
                          <id>make-assembly</id>
                          <phase>package</phase>
                          <goals>
                              <goal>single</goal>
                          </goals>
                      </execution>
                  </executions>
              </plugin>-->
        </plugins>
    </build>

</project>

首先准备数据文件 SumData.txt,内容如下:

27 41 39 29 51 45 24 28 56 52 29 51 18 25 19 10 52 37 18 25 23 52 19 33 59 24 39 58 51 12 

44 10 42 19 35 28 39 33 58 45 28 35 26 55 32 33 27 40 10 31 42 15 41 56 42 47 40 45 28 52 

52 28 50 12 42 28 17 50 31 33 42 14 34 19 23 22 40 21 54 43 52 29 38 53 34 28 11 15 25 44 

27 27 43 58 24 12 33 45 39 43 19 57 38 55 54 29 28 58 36 44 59 26 27 21 31 55 29 53 39 38 

58 52 46 37 20 49 10 28 15 24 35 38 14 44 59 48 42 18 59 38 43 23 19 28 30 24 36 10 30 15 

59 26 21 28 54 53 54 49 12 16 12 28 28 55 33 27 25 19 32 56 19 45 43 33 33 53 38 40 45 39 

17 57 26 35 57 47 43 15 52 57 52 56 39 26 12 57 38 32 15 30 22 48 14 29 12 47 37 29 59 57 

11 34 54 13 43 41 45 59 58 42 36 13 32 55 18 51 14 13 40 58 58 19 39 15 25 55 36 30 10 52 

31 46 12 53 58 52 11 17 39 33 23 16 23 56 22 42 48 23 38 40 49 46 28 46 53 33 27 53 40 32 

25 23 36 46 21 22 47 21 52 11 24 20 14 16 57 38 21 16 42 29 14 38 32 10 39 57 16 23 53 58 

58 14 54 43 10 32 13 18 46 10 30 27 20 14 41 46 26 15 31 23 18 38 18 15 46 38 33 42 47 42 

48 15 59 32 49 15 57 13 27 53 37 18 40 49 19 54 43 58 33 29 55 49 43 56 11 26 10 10 34 36 

24 17 41 25 31 51 22 26 41 48 55 46 32 11 56 36 31 12 43 13 52 24 47 14 30 22 28 14 56 27 

10 25 14 45 33 28 51 58 31 17 30 50 57 51 12 25 56 24 31 44 11 21 43 19 21 46 24 59 37 31 

22 20 49 27 36 11 27 42 14 25 38 58 18 48 17 13 35 42 57 38 24 13 57 13 46 54 35 43 12 38 

54 55 21 52 58 17 22 47 21 55 49 23 32 54 48 45 43 36 45 33 57 40 10 37 57 45 29 25 12 32 

37 14 25 46 25 55 15 59 30 54 25 36 48 30 51 31 54 26 35 56 32 52 37 57 34 54 41 55 40 51 

47 33 35 56 40 52 33 53 58 32 43 26 46 25 10 41 55 37 58 43 57 20 40 23 35 22 42 19 38 30 

49 33 52 22 57 19 39 22 42 21 41 24 57 33 53 21 35 18 38 18 44 58 52 50 44 23 18 26 19 21 

47 54 24 48 59 29 43 37 46 42 40 38 24 48 38 24 17 25 23 30 26 33 20 28 12 41 28 35 45 22 

18 13 21 36 10 30 55 19 21 41 37 37 33 40 38 40 36 34 21 52 33 40 40 31 51 52 59 34 34 32 

26 22 21 38 20 40 12 32 59 24 22 29 23 22 18 48 16 17 59 46 53 40 47 43 26 16 23 17 18 14 

35 29 43 20 27 22 21 15 11 20 29 15 13 20 10 17 10 33 42 36 17 48 32 28 29 23 32 19 45 55 

35 55 18 17 12 20 13 17 54 13 51 10 43 15 43 13 46 21 47 48 55 51 19 32 53 33 52 16 23 47 

22 33 52 23 43 25 34 39 22 42 21 51 58 48 24 30 12 55 36 43 38 24 20 53 42 26 33 14 47 55 

30 55 20 59 16 11 40 10 43 33 16 58 43 55 54 25 54 47 59 29 51 21 54 59 26 13 23 19 19 17 

44 14 38 23 45 42 47 43 13 15 29 17 27 28 37 30 51 26 59 15 30 33 47 21 28 38 49 46 14 51 

28 55 58 11 27 34 17 46 27 34 46 56 39 31 53 52 17 56 28 49 27 39 49 16 19 12 28 26 27 42 

28 27 27 26 34 53 55 13 11 40 47 35 58 15 18 38 30 57 48 54 59 16 54 56 12 27 57 12 41 13 

25 54 33 21 19 57 45 33 10 57 12 57 26 38 26 31 39 53 31 59 55 25 46 54 59 47 34 57 23 39 

33 52 39 42 15 56 54 43 39 36 13 18 53 29 17 22 29 50 20 19 55 25 22 27 12 41 47 32 55 52 

13 30 26 18 58 20 52 30 50 23 11 38 58 28 45 14 44 45 27 23 19 16 24 22 12 35 47 20 57 39 

41 49 17 37 45 59 32 34 22 13 53 25 13 51 17 18 35 31 28 40 39 34 52 22 16 12 40 36 17 55 

56 45 14 32 20 40 36 16 34 55 43 33 38 43 49 36 41 49 57 17 13 10 39 18 30 28 19 15 29 41 

19 49 17 38 49 57 10 50 23 32 22 16 12 42 43 30 18 59 29 19 18 24 55 52 46 43 57 51 48 58 

47 35 23 46 36 33 26 43 28 22 45 57 18 35 36 23 13 51 56 25 37 15 12 59 17 29 21 18 34 37 

27 18 38 58 14 14 54 40 52 25 15 53 22 26 27 10 57 27 26 55 11 44 17 56 57 41 31 10 40 24 

57 45 44 51 41 44 26 22 45 33 20 21 11 59 28 46 51 45 42 19 24 47 35 25 54 35 10 13 53 34 

22 10 52 42 22 50 32 28 23 21 49 49 39 53 15 44 26 52 36 53 16 29 41 14 50 38 40 30 53 50 

38 28 29 17 55 27 46 11 25 40 36 33 41 43 57 30 32 20 11 51 21 17 49 26 28 45 42 36 50 10 

21 11 14 30 27 21 37 47 26 16 43 41 25 17 18 58 36 14 26 40 39 48 20 39 44 49 13 19 57 57 

24 35 14 50 20 41 26 16 19 57 32 20 27 21 49 31 59 23 44 34 57 43 55 33 17 11 58 31 21 22 

10 38 59 36 30 53 41 15 24 19 18 43 14 51 25 45 24 37 23 56 20 38 18 15 53 52 20 43 32 55 

50 46 54 59 47 33 46 25 25 54 29 49 46 25 15 53 58 53 24 13 42 32 47 17 40 36 14 12 51 24 

27 15 55 33 11 51 24 36 24 11 52 40 25 15 33 32 14 43 30 17 41 35 43 39 21 28 44 35 42 44 

26 46 58 22 57 30 18 56 34 31 21 44 41 57 53 26 14 37 49 57 51 54 44 17 57 11 15 57 27 18 

35 14 37 57 35 46 16 12 46 25 57 29 11 59 30 50 57 11 36 24 59 30 26 34 30 25 21 37 57 22 

31 13 51 27 55 35 32 54 50 56 46 51 16 12 34 59 55 52 16 15 59 23 44 15 18 48 23 36 13 41 

37 45 20 23 46 46 24 53 19 51 26 25 49 47 42 24 48 40 28 12 26 51 52 22 18 42 23 18 30 26 

49 21 35 10 33 25 22 16 28 55 28 10 10 50 41 33 19 57 46 13 47 34 27 10 11 34 28 29 17 39 

58 30 21 35 23 38 44 32 31 51 52 39 45 53 47 43 10 56 52 27 10 44 37 59 34 56 25 30 24 50 

46 51 57 30 30 50 39 12 49 52 10 49 57 56 31 10 21 53 31 19 42 33 55 21 29 11 51 29 52 10 

15 55 25 31 52 55 50 37 11 39 40 22 30 25 49 13 57 24 27 22 29 51 28 42 51 24 16 46 25 30 

17 53 39 12 28 32 35 12 11 24 57 58 44 58 39 25 46 24 12 26 40 20 56 20 47 20 17 55 41 15 

29 41 11 23 20 52 22 24 34 15 29 44 58 35 12 20 25 24 42 53 12 22 24 10 59 14 50 28 28 30 

16 19 18 10 12 39 39 26 19 16 26 23 37 45 31 58 10 54 29 26 40 16 16 51 39 12 26 36 39 53 

13 23 14 16 20 22 40 10 25 39 40 17 25 48 43 17 10 40 47 49 58 40 55 30 55 19 37 10 53 15 

47 46 25 33 19 48 48 40 32 59 35 40 46 41 31 39 46 42 28 51 55 13 15 50 58 53 49 53 51 12 

22 56 40 35 48 46 25 21 27 35 34 43 22 29 39 45 29 35 31 39 46 33 17 10 28 47 55 17 53 47 

54 58 35 56 14 11 45 19 52 21 44 12 55 48 51 50 26 45 28 45 35 56 25 31 37 31 59 34 42 13 

40 46 39 23 41 11 30 53 21 14 48 10 59 11 58 11 45 44 46 16 22 59 55 17 19 18 44 43 55 48 

53 15 50 39 32 39 35 15 36 33 38 24 17 42 19 13 46 50 49 55 10 50 35 25 52 24 29 33 21 25 

15 55 31 30 34 50 40 27 32 38 12 36 29 15 19 39 26 25 28 10 53 22 10 37 21 14 24 34 33 59 

34 37 21 59 45 23 22 50 49 11 56 40 58 58 59 28 18 55 42 55 47 31 50 45 53 31 51 42 28 34 

10 54 11 30 14 31 12 33 11 57 14 58 49 20 39 38 19 25 22 32 36 34 19 59 30 49 12 29 35 30 

36 54 56 55 33 51 41 20 25 28 30 37 16 25 22 52 20 24 36 27 23 46 48 10 30 57 10 50 32 37 

12 38 31 19 22 49 32 28 40 57 47 51 50 52 48 55 47 37 58 30 37 36 58 41 34 40 36 21 19 22 

49 35 47 55 24 34 32 11 56 10 18 11 43 55 13 56 54 58 53 43 12 15 22 53 52 10 16 12 41 13 

26 33 24 10 14 19 52 37 58 38 37 49 57 59 18 59 45 14 48 43 47 45 38 43 21 33 24 40 44 43 

36 43 22 54 41 19 15 53 52 56 31 39 18 59 41 36 40 35 38 46 22 33 24 34 44 50 46 52 45 59 

43 53 37 30 33 30 25 45 23 44 34 25 35 26 21 29 51 44 52 58 12 41 39 14 34 40 42 23 44 20 

12 18 39 29 15 21 18 24 16 52 56 12 35 41 32 18 22 21 55 17 25 50 54 58 42 38 42 37 55 53 

13 11 42 38 40 52 51 32 39 44 13 12 11 57 51 57 35 45 44 30 18 37 58 57 56 27 58 54 58 53 

34 32 36 32 13 40 18 15 43 55 45 53 49 56 49 32 47 48 36 51 29 27 31 32 14 12 15 14 42 10 

53 44 49 27 54 38 46 50 57 44 45 44 28 34 33 21 22 30 47 18 11 45 17 43 29 13 29 46 45 42 

13 22 40 22 27 14 55 52 33 20 19 10 13 49 33 51 19 29 28 16 39 49 42 37 46 55 13 28 25 35 

28 49 31 50 49 14 45 38 11 41 37 52 30 27 41 55 53 33 14 28 41 12 28 20 14 20 49 51 22 38 

30 39 28 49 33 54 12 13 13 25 41 36 19 39 21 49 48 12 29 31 49 31 39 10 20 39 10 16 35 18 

40 37 33 14 11 43 48 43 25 22 52 23 33 37 10 14 27 10 41 37 50 22 11 52 12 45 19 14 13 10 

49 52 47 29 48 15 12 59 12 44 33 15 57 50 47 44 22 45 11 50 45 53 24 34 59 21 51 32 15 36 

30 21 45 57 10 42 51 21 20 43 44 11 16 20 56 23 46 58 21 52 58 23 17 36 25 20 17 32 16 19 

36 32 46 40 57 51 40 20 14 18 22 41 29 33 52 31 48 29 43 59 56 44 13 29 19 13 46 55 52 30 

23 55 53 42 31 26 42 17 36 51 33 14 53 35 27 29 59 56 11 28 19 33 30 22 39 54 45 51 15 47 

42 43 30 27 56 34 29 59 21 36 58 27 46 15 29 11 40 32 29 24 36 31 26 38 23 56 32 53 52 18 

28 33 38 55 41 36 37 45 40 52 46 49 14 54 53 14 28 25 57 31 27 10 29 31 46 42 36 52 17 57 

41 28 19 16 25 34 32 22 40 51 45 42 41 25 40 30 36 49 55 51 42 57 54 36 15 14 44 56 40 56 

15 27 47 26 17 27 54 19 18 35 34 48 30 14 50 44 38 51 46 49 10 41 52 55 18 30 27 25 56 55 

48 33 27 51 35 38 50 39 50 44 57 38 56 24 21 53 27 30 42 24 56 59 22 17 12 24 56 38 20 38 

33 29 49 59 41 52 12 44 22 38 35 45 27 37 47 59 56 52 12 59 41 14 11 45 46 20 13 22 54 51 

11 53 15 42 48 50 47 32 52 27 50 54 23 11 13 56 35 25 41 59 18 48 18 24 26 14 48 22 41 27 

24 26 31 31 37 29 27 52 40 40 35 56 27 13 56 45 44 26 28 58 56 54 29 26 19 17 42 39 19 12 

59 17 55 17 52 14 36 31 56 53 46 34 25 55 59 56 16 28 16 55 24 22 32 20 24 16 46 50 37 29 

27 52 29 26 28 12 50 41 34 29 54 52 47 33 17 55 18 42 26 16 31 23 21 17 17 36 34 56 19 38 

32 34 40 33 22 10 47 32 18 44 26 55 48 43 44 44 37 24 20 40 34 29 48 45 38 18 56 49 33 35 

17 47 54 19 38 24 58 46 48 37 39 10 11 47 17 53 15 19 38 50 10 54 29 25 23 16 30 32 49 29 

32 42 39 36 27 18 16 49 42 39 50 40 20 56 44 29 17 49 21 50 30 22 20 54 49 24 46 17 11 45 

58 22 48 45 25 18 15 38 11 31 28 59 56 49 27 53 10 12 51 17 30 14 24 17 22 11 30 28 42 24 

26 31 33 28 16 40 59 34 31 37 43 45 59 43 40 44 19 16 31 48 32 20 22 43 36 33 54 29 49 37 

34 31 25 13 13 20 27 49 44 46 21 38 50 35 20 40 53 54 36 26 41 43 37 21 58 55 50 12 31 16 

50 25 57 59 47 14 29 20 46 27 16 17 47 14 44 23 19 53 50 40 10 35 33 31 50 39 12 57 37 52

当你有了这个文件后,需要求每一行用空格间隔开的数字的总和,还有所有行数字加起来的总和。
MapReduce计算需要三个类。

第一个类:
Mapper 继承 org.apache.hadoop.mapreduce.Mapper

第二个类:
Reducer 继承 org.apache.hadoop.mapreduce.Reducer

第三个类:
Runner 或 Driver (启动类)继承org.apache.hadoop.conf.Configured
实现org.apache.hadoop.util.Tool接口。

先把各个类的代码贴上来,然后逐个详细地讲解它们的作用。
认真看注释,反复看个几次,上下文结合,最好能自己跑一遍代码。
需要注意的是,要导入正确的包。

WordCountDriver.java

package demo01;

//注意观察这些包名,不能导错包
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

//Driver类 继承Configured类 实现Tool接口
public class WordCountDriver extends Configured implements Tool {

	//实现Tool接口就必须重写一个run方法。
    @Override
    public int run(String[] args) throws Exception {
        //1.实例化job
        Job job = Job.getInstance(new Configuration(),"countNumbers");
        //job就是一个工作对象、也可以理解为计算任务。他是代表一个大的计算任务。
        
        //2.读取
        //设置job读取的数据类型,因为我们是读取的.txt文本文件,所以使用TextInputFormat
        job.setInputFormatClass(TextInputFormat.class);
        
        //设置要读取的文件位置在哪里,是一个Path对象,注意包要导对
        TextInputFormat.addInputPath(job,new Path("E:\\SumData.txt"));
        
        //3.map
        //map将数据进行拆分,在这一步,就能完成计算,具体的计算定义在WordCountMapper类中
        //所以这里要设置这个job的mapper类
        job.setMapperClass(WordCountMapper.class);

		//然后要设置这个mapper输出的数据类型
		//map的输出是<keys,values>类型的
		//也就是键值对类型,不过这个键值对左右都是列表或数组
		
		//设置输出的key的类型为文本类型的列表
		//为什么不是String?因为hadoop有自己的一套数据类型,往下看,已经总结了。
        job.setMapOutputKeyClass(Text.class);

		//设置输出的value类型为长整数类型的列表
        job.setMapOutputValueClass(LongWritable.class);
        
        //4.reduce
        //reduce做数据合并,一般会对计算的结果进行汇总,整理。
        //reduce发生在reducer类中,这里指定reducer类是哪一个
        job.setReducerClass(WordCountReducer.class);
		
		//reduce输出的也是键值对<key,values>,但是key是单个的,values是列表
		//设置reduce输出的key的类型为文本型,注意,这个key不是列表了,而是单个对象了。
        job.setOutputKeyClass(Text.class);

		//设置reduce输出的values的类型为长整数
        job.setOutputValueClass(LongWritable.class);
        
        //5.输出
        //设置计算结果输出的数据的数据类型,这里要写到文件里,所以是TextOutputFormat
        job.setOutputFormatClass(TextOutputFormat.class);
        //设置输出到哪里,只能设置为目录,而且这个目录不能存在。
        //hadoop设计好的,为了防止覆盖,这个目录必须不能存在,不然就报错
        TextOutputFormat.setOutputPath(job,new Path("e:\\mapReduceResult01"));

        //6.等待返回
        //判断计算是否完成?完成就返回0(正常返回),没完成就返回1(异常返回)
        return job.waitForCompletion(true)?0:1;
    }

	//写个主方法运行这个Driver类,固定格式记住就行
    public static void main(String[] args) throws Exception {
        ToolRunner.run(new WordCountDriver(),args);
    }
}

WordCountMapper.java

package demo01;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

//mapper类继承了Mapper,同时也要实现泛型
//前两个是输入的key和value的类型
//后两个是输出的keys和values的类型
public class WordCountMapper extends Mapper<LongWritable, Text,Text,LongWritable> {
	//定义一个变量,算当前为止总的和,这个变量的值线程锁定的,同一时间hadoop只会有一个map访问它,保证了计算的准确性
    static long finalSum = 0;

	//map是分布式运行的(分发到不同的节点上),计算的顺序会被打乱,不是从0到100,而是100拆分为几个块,同时计算
	//谁先计算完,谁就丢给reduce,所以reduce接收到的数据是乱序的。
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    	//map每次读取一行数据,进行操作
        //key 是偏移量(这一行第一个字符,到文本最开始的0的位置中间隔着的字符数) value 是这一行的内容
		//获取这一行的长度,为了去除空行,空行的长度为0
        int length = value.getLength();
		//输出看一看这一行的长度,测试用
        //System.out.println("这一行的长度"+length);
		
		//sum是单行的和,finalSum是所有数字的和,不要混淆
		//map是逐行运算,所以sum每次都会被初始化为0,然后计算这一行的和
		//用long是因为大数据,突出一个大字,所以用long
        long sum = 0;

		//长度不为0,说明有数字,说明要计算和了
        if (length != 0){
			//保险起见,再初始化一次
            sum = 0;
            //因为数字之间都是用空格间隔开,所以用空格分隔成一个个的文本类型的数字
            String[] values = value.toString().split(" ");
            //遍历,每一个number都是文本格式的数字
            for (String number : values) {
				//输出看一下
                //System.out.println(number);
                
                //防止数据错误出现空指针异常(大数据不在乎一两条数据是否为空)
                //大数据追求大体方向,而不追求精确
                //因为大数据拿到的不是抽样数据,而是总体数据,所以一些损耗可以忽略。
                if (number!= null){
                	//给sum一加
                    sum += Integer.parseInt(number);

                }
            }
            //遍历完,sum也求出来了,sum就是这一行的和,我们把它加到总的和上面去
            finalSum += sum;
            //输出看一下
            System.out.println(sum);
            //context.write()有俩参数,分别对应你继承Mapper时,填入的后两个数据类型
            //不能直接写String类型和long类型,必须用new Text("")类似这样的,进行一个转化
            //转化成hadoop支持的数据类型才能往下写
            //context.write是写到reduce里,也就是reduce接收的是mapper写出的数据
            context.write(new Text("当前行偏移量:"+key.toString()+"  当前所有行值的总和:"+finalSum + "  当前行总和:"),new LongWritable(sum));

        }


    }
}

WordCountReducer.java

package demo01;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
//这里的4个泛型,前两个是接收Mapper输出的类型,所以刚才Mapper的context.write()输出了什么类型
//你这里就得写什么类型,不然就会报错,后两个就是你Reducer要输出的类型
//因为你要把它写到文件里,虽然有Text就够了,不过形式主义要求,所以加个LongWritable
public class WordCountReducer extends Reducer<Text, LongWritable,Text,LongWritable> {
    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
    	//reduce接收到所有的数据后才会运行
    	//这时候你可以遍历输出看一下接收到了什么。
    	System.out.println("Reducer key : "+key);
        for (LongWritable value : values) {
            System.out.println("Reducer value : "+value);
            //reduce计算后输出
            context.write(key,value);
        }
    }
}

运行结果如下,注意,结合代码仔细观察运行结果,可以让你对运算过程理解更深刻:
建议亲自跑一下代码,复制粘贴,运行,5分钟就能搞定,如果你没接触过,理解计算过程需要至少10分钟,所以一定要亲自跑一遍。

INFO - session.id is deprecated. Instead, use dfs.metrics.session-id
  INFO - Initializing JVM Metrics with processName=JobTracker, sessionId=
  WARN - Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
  WARN - No job jar file set.  User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
  INFO - Total input paths to process : 1
  INFO - OutputCommitter set in config null
  INFO - Running job: job_local1478462730_0001
  INFO - OutputCommitter is org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter
  INFO - Waiting for map tasks
  INFO - Starting task: attempt_local1478462730_0001_m_000000_0
  WARN - Group org.apache.hadoop.mapred.Task$Counter is deprecated. Use org.apache.hadoop.mapreduce.TaskCounter instead
  INFO -  Using ResourceCalculatorPlugin : null
  INFO - Processing split: file:/E:/SumData.txt:0+9300
  INFO - Map output collector class = org.apache.hadoop.mapred.MapTask$MapOutputBuffer
  INFO - io.sort.mb = 100
  INFO - data buffer = 79691776/99614720
  INFO - record buffer = 262144/327680
 1046
1078
984
1147
992
1075
1117
1069
1090
921
…………
…………
…………//太多了,省略一下
…………
984
1034
915
1078
1039
1053
 INFO - 
  INFO - Starting flush of map output
  INFO - Finished spill 0
  INFO - Task:attempt_local1478462730_0001_m_000000_0 is done. And is in the process of commiting
  INFO - 
  INFO - Task 'attempt_local1478462730_0001_m_000000_0' done.
  INFO - Finishing task: attempt_local1478462730_0001_m_000000_0
  INFO - Map task executor complete.
  WARN - Group org.apache.hadoop.mapred.Task$Counter is deprecated. Use org.apache.hadoop.mapreduce.TaskCounter instead
  INFO -  Using ResourceCalculatorPlugin : null
  INFO - 
  INFO - Merging 1 sorted segments
  INFO - Down to the last merge-pass, with 1 segments left of total size: 9083 bytes
  INFO - 
 Reducer key : 当前行偏移量:0  当前所有行值的总和:1046  当前行总和:
Reducer value : 1046
Reducer key : 当前行偏移量:1023  当前所有行值的总和:12505  当前行总和:
Reducer value : 1078
Reducer key : 当前行偏移量:1116  当前所有行值的总和:13480  当前行总和:
Reducer value : 975
Reducer key : 当前行偏移量:1209  当前所有行值的总和:14484  当前行总和:
Reducer value : 1004
Reducer key : 当前行偏移量:1302  当前所有行值的总和:15456  当前行总和:
Reducer value : 972
Reducer key : 当前行偏移量:1395  当前所有行值的总和:16610  当前行总和:
Reducer value : 1154

…………
…………
…………//太多了,省略一下
…………

Reducer value : 915
Reducer key : 当前行偏移量:9021  当前所有行值的总和:101505  当前行总和:
Reducer value : 1078
Reducer key : 当前行偏移量:9114  当前所有行值的总和:102544  当前行总和:
Reducer value : 1039
Reducer key : 当前行偏移量:9207  当前所有行值的总和:103597  当前行总和:
Reducer value : 1053
Reducer key : 当前行偏移量:93  当前所有行值的总和:2124  当前行总和:
Reducer value : 1078
Reducer key : 当前行偏移量:930  当前所有行值的总和:11427  当前行总和:
Reducer value : 908
 INFO - Task:attempt_local1478462730_0001_r_000000_0 is done. And is in the process of commiting
  INFO - 
  INFO - Task attempt_local1478462730_0001_r_000000_0 is allowed to commit now
  INFO - Saved output of task 'attempt_local1478462730_0001_r_000000_0' to e:/mapReduceResult01
  INFO - reduce > reduce
  INFO - Task 'attempt_local1478462730_0001_r_000000_0' done.
  INFO -  map 100% reduce 100%
  INFO - Job complete: job_local1478462730_0001
  INFO - Counters: 17
  INFO -   File System Counters
  INFO -     FILE: Number of bytes read=27969
  INFO -     FILE: Number of bytes written=357640
  INFO -     FILE: Number of read operations=0
  INFO -     FILE: Number of large read operations=0
  INFO -     FILE: Number of write operations=0
  INFO -   Map-Reduce Framework
  INFO -     Map input records=200
  INFO -     Map output records=100
  INFO -     Map output bytes=8881
  INFO -     Input split bytes=85
  INFO -     Combine input records=0
  INFO -     Combine output records=0
  INFO -     Reduce input groups=100
  INFO -     Reduce shuffle bytes=0
  INFO -     Reduce input records=100
  INFO -     Reduce output records=0
  INFO -     Spilled Records=200
  INFO -     Total committed heap usage (bytes)=514850816
 
Process finished with exit code 0

运行成功后,多出了一个目录

mapreduce JAVA 导入导出 mapreduce java开发_Hadoop


打开看一看

mapreduce JAVA 导入导出 mapreduce java开发_maven_02


打开运行结果

mapreduce JAVA 导入导出 mapreduce java开发_mapreduce JAVA 导入导出_03


发现它们的顺序都是不规律的,这是因为map是分布式计算的,所以不会在意顺序

偏移量

每个字符移动到当前文档的最前面需要移动的字符个数。

hadoop数据类型

java

hadoop

int

IntWritable

long

LongWritable

double

DoubleWritable

float

FloatWritable

boolean

BooleanWritable

String

Text