1. 先从HDFS文件系统中读取文件

  2. 进行合并

  3. 进行逻辑切分 Split

MapReduce工作流程详解_大数据

  1. 对一行数据进行切分RecordRead,以key为行首字母的偏移量value为对应的一行数据 传给maptask

  2. MapTask对数据进行处理后 传给shuffle的分区partition

  3. partition对数据进行分区处理 将数据传给shuffle的sort排序

  4. sort排序后的结果传送给shuffle的combiner(局部聚合) 将结果传给shuffle的group(分组)

MapReduce工作流程详解_hadoop_02

  1. 分组后的结果传给Reduce进行计算

  2. reduce计算后的结果最终输出给HDFS文件系统

MapReduce工作流程详解_hadoop_03

全过程

MapReduce工作流程详解_MapReduce_04