目标概览
可靠容错的方式并行处理大型集群的数据。
关注的点有:
- 输入
- 输出
- shuffle
- 调度
- 监控
RM负责调度任务,RM监控worker的运行状况。并向Client提供诊断信息。
输入输出
- key value结构
需要序列化
如果要key排序,需要支持比较
提交命令
hadoop jar w.jar wordcount /input /output
除了这些常规的点之外,可以支持一些参数
- libjars
增加map reduce的jar包
- files
这些文件将会出现在工作目录中
- archive
解压到当前工作目录,可以通过#重新建立软连接
- Dmapreduce.map|reduce.env
指定运行时环境变量
整体流程
- map
- combine
运行过程中如果指定了合并器,那么会在排序之后先进行本地聚合.这时之前都是本地的
- reduce
- 客户端
Main方法通过waitForCompletion提交作业并监控作业执行
用户接口
提供细粒度的实现方式,配置和调优
- Mapper
输入key-value映射到mkey-value对
- 中间键值对不一定需要和输入的键值对一样
- 中间键值对可以是0个或者多个
Map的个数由InputSplit决定,每一个InputSplit生成一个MapTask
context.write 收集结果
- 中间值被框架分组,用户可以指定分组的逻辑Job.setGroupingComparatorClass(Class),分组的作用是构造迭代器,一个分组一个迭代器处理。map和reduce端都会出现。
- 中间值可以排序,然后分区。分区的个数和reducer一致。用户可以通过Partitioner指定key->reducer的映射关系。
- 中间值输出的结构简单,kenlen key valuelen value这种方式,可以指定压缩
- Mapper个数
Mapper个数,这里指的是并行度,这个通常是由输入数据量决定的。大约是每个10-100个map tasks,特别轻量级的任务可以指定到300.
split是逻辑划分,block是物理划分,物理划分时可能导致数据跨行,这时候split就需要读取相邻两个block。
- Reducer
Combine的结果继续跨节点合并
用户可以指定reducer的个数
需要处理(key,iterator(valuess))的数据
shuffle
reducer的输入值是mapper的排序输出
http获取所有mapper的相关partition
soft
reduce拉取数据之后,要进行分组
一边shuffle获取数据,一边排序同时进行
Secondary Sort
combine的排序和reduce的排序规则不同,那么可以做到整体combine有序,然后reduce时局部再次排序。
- Reduce
对于每一个(key,list of values)调用reduce方法,结果未排序
- Reducer的个数
总容器*系数
如果没有reduce task,那么reduce 可以设置为0
- Partitioner
map端结果的分区,用来将key分配到不同的reduce task中。个数和reduce个数一致。默认是对key进行hash分区
作业配置
任务配置的主要作用是配置
- mapper
- combiner
- partitioner
- reducer
- InputFormat
FileInputFormat指定输入路径 FileInputFormat.setInputPath(job,String/Path)
FileInputFormat指定输入路径 FileInputFormat.addInputPath(job,String/Path)
- OutputFormat
FileInputFormat指定输出路径setOutputPath
作业配置也指定了一些其他的部分,比如说
- comparator
- DistributedCache
- 是否压缩,如何压缩
- 推测执行(Map和Reduce端)
- 最大重试次数
任务执行环境
MapTask和ReduceTask都是在指定的JVM中运行的线程,因此可以通过指定Java opts参数来进行控制。
- 控制内存
mapreduce.map.java.opts
mapreduce.reduce.java.opts
mapreduce.map.memory.mb
mapreduce.reduce.memory.mb
方式类似如下
<property>
<name>mapreduce.map.java.opts</name>
<value>
-Xmx512M -Djava.library.path=/home/mycompany/lib -verbose:gc -Xloggc:/tmp/@taskid@.gc
-Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false
</value>
</property>
- 指定共享库路径
-Djava.library.path=/home/mycompany/lib
- map参数
map端输出的文件以及元数据进入两个缓冲区,任何一个缓冲区达到阈值,那么就进行磁盘刷写。这个时候如果是任何一个缓冲区满了,那么就终止map线程。结束之后,所有的文件合并成一个单个文件。
- mapreduce.task.io.sort.mb 用来排序的内存
- mapreduce.map.sort.spill.percent 磁盘的软限制,map内存占比多少时进行排序
增加sort内存可以缩小map spill数可以减小map合并时间,但是会增加线程中止时间。
- shuffle和reduce参数
reduce需要通过HTTP获取分配给它的输出,然后(解压)放入到内存中。
mapreduce.task.io.soft.factor 多少个文件可以同时合并,大文件分批合并
mapreduce.reduce.merge.inmem.thresholds 多少个map输出结果可以在内存中合并,一般设置或者非常大1000,或者非常小0。r
mapreduce.reduce.shuffle.merge.percent 在内存合并开始之前,有多少内存可以用来保存map输出
mapreduce.reduce.shuffle.input.buffer.percent 存放map结果内存比例占opts百分比
mapreduce.reduce.input.buffer.percent map结果可以保存在内存中的比例
reduce阶段,如果获取map阶段的输出大于25%的内存,那么直接写磁盘。
任务提交和监控
- 作业提交
检查输入输出
计算inputsplit
设置DistributedCache的账户信息
把Job的配置拷贝到MR系统目录
提交任务到RM,一种是即时返回Job.submit,一种是Job.waitForCompletion
- 跟踪作业进度
- 访问组件任务的报告和日志
- 获取MR集群状态
任务输入
- 检查输入是否有效
- InputSplit文件(逻辑上的),然后每一个指定给一个独立的Mapper
- 提供一个RecordReader(物理上的)从InputSplit中获取输入,输入给Mapper。
RecordReader实际获取InputSplit的视图对应的记录,给Mapper处理实现。所以他要处理边界问题。
要把输入进行逻辑上的划分,物理块大小是上限,下限通过参数指定mapreduce.input.fileinputformat.split.minsize。如果文件是特定格式的,那也不能进行划分了,一个Mapper处理一个不可以拆分的单位。
任务输出
OutputMapper用来处理task output。会在对应在如下情况。
- 初始化时候
需要创建临时目录等,setup任务结束后,job状态从PREP到RUNNING
- 任务完成时清理
- Task临时目录
- 检查Task是否需要提交
- 提交Task
任务结束后,可能需要提交output。
- 丢弃任务
可能Task自己清理,也可能加载一个同attempt_id的任务清理
为了避免推测执行等导致的同名输出,采取的方式是先分别放到临时目录,成功的使用真正的输出目录。
Record Writer
真正将数据写到文件系统
其他的功能
- 指定队列名称
- 计数器
Map/Reduce程序中可以指定计数器,最终MR框架会进行全局聚合。
- 分布式缓存
用来缓存只读文件到node节点上。可以用来提供Map/Reduce运行的库和jar包等。
分布式缓存可以设置权限