运行MapReduce方法
- submit:job对象上的方法,在mapreduce配置完成后可调用此方法来提交任务。
- waitForCompletion:它用于提交以前没有提交过的作业,并等待它完成。
MapReduce 1和2(YARN)的对比
MapReduce 1
- 客户端,提交MapReduce作业
- jobtracker,协调作业的运行。jobtracker是一个java应用程序,它的主类是JobTracker
- tasktracker,运行作业划分后的任务,tasktracker是java应用程序,它的主类是TaskTracker
- 分布式文件系统(一般为HDFS),用来在其他实体间共享作业文本
YARN
- YARN将JobTracker的职能划分为多个独立的实体,从而改善了“经典的”MapReduce面临的扩展瓶颈问题。
- JobTracker负责==作业调度==和==任务进度监视==,追踪任务,重启失败或过慢的任务和进行任务登记,例如维护计数器总数。
- YARN将JobTracker的两种角色划分为两个独立的守护进程:
- 管理集群上资源使用的资源管理器
- 管理集群上运行任务生命周期的应用管理器
- 基本思路:
应用服务器与资源管理器协商集群的计算资源:==容器==。在这些容器上运行特定应用程序的进程。容器由集群节点上运行的节点管理器监视,以确保应用程序使用的资源不会超过分配给它的资源。对比
- YARN比MapReduce更具一般性,实际上MapReduce只是YARN应用的一种形式。YARN设计的精妙之处在于不用的YARN应用可以在同一个集群上共存。例如,一个MapReduce应用可以同时作为MPI应用运行。这大大的提高了可管理性和集群的利用率。用户甚至有可能在同一个YARN集群上运行多个不同版本的MapReduce,这使得MapReduce升级过程更容易管理。
- YARN上的MapReduce比经典的MapReduce包括更多的实体:
- 提交MapReduce作业的客户端
- YARN资源管理器,负责协调集群上计算资源的分配
- YARN节点管理器,负责启动和监视集群中机器上的计算容器
- MapReduce应用程序master负责协调运行MapReduce作业的任务。它和MapReduce任务在容器中运行。这些容器由资源管理器分配并由节点管理器进行管理。
- 分布式文件系统(一般为HDFS),用来与其他实体间共享作业文件
- 作业提交
YARN中的提交作业的API和经典的MapReduce很像(第1步). 作业提交的过程和经典的MapReduce很像, 新的作业ID(应用ID)由资源管理器分配(第2步). 作业的客户端核实作业的输出, 计算输入的split, 将作业的资源(包括Jar包, 配置文件, split信息)拷贝给HDFS(第3步). 最后, 通过调用资源管理器的submitApplication()来提交作业(第4步).
2. 作业初始化
当资源管理器收到submitApplciation()的请求时, 就将该请求发给调度器(scheduler), 调度器分配第一个container, 然后资源管理器在该container内启动应用管理器进程, 由节点管理器监控(第5a和5b步).
MapReduce作业的应用管理器是一个主类为MRAppMaster的Java应用. 其通过创造一些bookkeeping对象来监控作业的进度, 得到任务的进度和完成报告(第6步). 然后其通过分布式文件系统得到由客户端计算好的输入split(第7步). 然后为每个输入split创建一个map任务, 根据mapreduce.job.reduces创建reduce任务对象.
然后应用管理器决定如何运行构成整个作业的任务. 如果作业很小, 应用管理器会选择在其自己的JVM中运行任务, 这种作业称作是被unerized, 或者是以uber task的方式运行. 在任务运行之前, 作业的setup方法被调用来创建输出路径. 与MapRuduce 1中该方法由tasktracker运行的一个任务调用不同, 在YARN中是由应用管理器调用的.
3. 任务分配
如果不是小作业, 那么应用管理器向资源管理器请求container来运行所有的map和reduce任务(第8步). (注:每个任务对应一个container,且只能在该container上运行)这些请求是通过心跳来传输的, 包括每个map任务的数据位置, 比如存放输入split的主机名和机架(rack). 调度器利用这些信息来调度任务, 尽量将任务分配给存储数据的节点, 或者退而分配给和存放输入split的节点相同机架的节点.
请求也包括了任务的内存需求, 默认情况下map和reduce任务的内存需求都是1024MB. 可以通过mapreduce.map.memory.mb和mapreduce.reduce.memory.mb来配置.
分配内存的方式和MapReduce 1中不一样, MapReduce 1中每个tasktracker有固定数量的slot, slot是在集群配置是设置的, 每个任务运行在一个slot中, 每个slot都有最大内存限制, 这也是整个集群固定的. 这种方式很不灵活.
在YARN中, 资源划分的粒度更细. 应用的内存需求可以介于最小内存和最大内存之间, 并且必须是最小内存的倍数.
4. 任务运行
当一个任务由资源管理器的调度器分配给一个container后, 应用管理器通过练习节点管理器来启动container(第9a步和9b步). 任务有一个主类为YarnChild的Java应用执行. 在运行任务之前首先本地化任务需要的资源, 比如作业配置, JAR文件, 以及分布式缓存的所有文件(第10步). 最后, 运行map或reduce任务(第11步).
YarnChild运行在一个专用的JVM中, 但是YARN不支持JVM重用.
5. 进度和状态更新
YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 后者通过每3秒的脐带接口有整个作业的视图(view). 这和MapRduce 1不太一样, 后者的进度流从tasktracker到jobtracker. 下图为MapReduce 2中的进度更新流:
客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户.
在MapReduce 1中, jobtracker的UI有运行的任务列表及其对应的进度. 在YARN中, 资源管理器的UI展示了所有的应用以及各自的应用管理器的UI.
6. 作业完成
除了向应用管理器请求作业进度外, 客户端每5分钟都会通过调用waitForCompletion()来检查作业是否完成. 时间间隔可以通过mapreduce.client.completion.pollinterval来设置.
作业完成之后, 应用管理器和container会清理工作状态, OutputCommiter的作业清理方法也会被调用. 作业的信息会被作业历史服务器存储以备之后用户核查.