YARN介绍

A framework for job scheduling and cluster resource management.一个任务调度和集群资源管理框架

Apache YARN是Hadoop2.0引入的集群资源管理系统,用户可以将各种服务框架部署在YARN上,由YARN进行统一管理和资源分配。

架构

YARN的基本思想是将资源管理和作业调度/监视的功能拆分为单独的守护程序,也就是拥有一个全局ResourceManager(RM)和每个应用程序的ApplicationMaster(AM),应用程序可以是单个作业,也可以是DAG型的Job。

  1. ResourceManager和NodeManager构成数据计算框架。
  2. ResourceManager负责系统中所有应用程序之间最终权限的资源仲裁。
  3. NodeManager是每台机器的代理,负责容器,监视其资源使用情况(cpu,内存,磁盘,网络),并将其报告给ResourceManager / Scheduler。

hadoop yarn框架详解 hadoop yarn原理_hadoop yarn框架详解

  • ResourceManager具有两个主要组件:Scheduler和ApplicationsManager。
  1. Scheduler负责将资源分配给各种正在运行的应用程序,但要遵循同样的容量,队列等约束。
  1. Scheduler是纯调度程序(不对应用程序状态进行监视或跟踪)。此外,它也不保证由于应用程序故障或硬件故障而重启失败的任务。
  2. Scheduler根据应用程序的资源需求执行调度功能;它基于资源容器的抽象概念来做到这一点,该容器包含诸如内存,cpu,磁盘,网络等元素。
  3. Scheduler具有可插拔策略,该策略负责在各种队列,应用程序等之间分配集群资源。例如CapacitySchedulerFairScheduler是一些Scheduler示例。
  1. ApplicationsManager负责接受作业提交,协商用于执行特定于应用程序的ApplicationMaster的第一个容器,并提供在发生故障时重新启动ApplicationMaster容器的服务。每个应用程序ApplicationMaster负责与调度程序协商适当的资源容器,跟踪其状态并监视进度。
  • NodeManager是YARN集群中每个具体节点的管理者,主要负责该节点内所有容器的生命周期的管理,监视资源和跟踪节点健康

工作原理

hadoop yarn框架详解 hadoop yarn原理_大数据_02

  1. Client 提交作业到 YARN 上;
  2. Resource Manager 选择一个 Node Manager,启动一个 Container 并运行 Application Master 实例;
  3. Application Master 根据实际需要向 Resource Manager 请求更多的 Container 资源(如果作业很小, 应用管理器会选择在其自己的 JVM 中运行任务);
  4. Application Master 通过获取到的 Container 资源执行分布式计算。

 

hadoop yarn框架详解 hadoop yarn原理_大数据_03

1. 作业提交

client 调用 job.waitForCompletion 方法,向整个集群提交 MapReduce 作业 (第 1 步) 。新的作业 ID(应用 ID) 由资源管理器分配 (第 2 步)。作业的 client 核实作业的输出, 计算输入的 split, 将作业的资源 (包括 Jar 包,配置文件, split 信息) 拷贝给 HDFS(第 3 步)。 最后, 通过调用资源管理器的 submitApplication() 来提交作业 (第 4 步)。

2. 作业初始化

当资源管理器收到 submitApplciation() 的请求时, 就将该请求发给调度器 (scheduler), 调度器分配 container, 然后资源管理器在该 container 内启动应用管理器进程, 由节点管理器监控 (第 5 步)。

MapReduce 作业的应用管理器是一个主类为 MRAppMaster 的 Java 应用,其通过创造一些 bookkeeping 对象来监控作业的进度, 得到任务的进度和完成报告 (第 6 步)。然后其通过分布式文件系统得到由客户端计算好的输入 split(第 7 步),然后为每个输入 split 创建一个 map 任务, 根据 mapreduce.job.reduces 创建 reduce 任务对象。

3. 任务分配

如果作业很小, 应用管理器会选择在其自己的 JVM 中运行任务。

如果不是小作业, 那么应用管理器向资源管理器请求 container 来运行所有的 map 和 reduce 任务 (第 8 步)。这些请求是通过心跳来传输的, 包括每个 map 任务的数据位置,比如存放输入 split 的主机名和机架 (rack),调度器利用这些信息来调度任务,尽量将任务分配给存储数据的节点, 或者分配给和存放输入 split 的节点相同机架的节点。

4. 任务运行

当一个任务由资源管理器的调度器分配给一个 container 后,应用管理器通过联系节点管理器来启动 container(第 9 步)。任务由一个主类为 YarnChild 的 Java 应用执行, 在运行任务之前首先本地化任务需要的资源,比如作业配置,JAR 文件, 以及分布式缓存的所有文件 (第 10 步。 最后, 运行 map 或 reduce 任务 (第 11 步)。

YarnChild 运行在一个专用的 JVM 中, 但是 YARN 不支持 JVM 重用。

5. 进度和状态更新

YARN 中的任务将其进度和状态 (包括 counter) 返回给应用管理器, 客户端每秒 (通 mapreduce.client.progressmonitor.pollinterval 设置) 向应用管理器请求进度更新, 展示给用户。

6. 作业完成

除了向应用管理器请求作业进度外, 客户端每 5 分钟都会通过调用 waitForCompletion() 来检查作业是否完成,时间间隔可以通过 mapreduce.client.completion.pollinterval 来设置。作业完成之后, 应用管理器和 container 会清理工作状态, OutputCommiter 的作业清理方法也会被调用。作业的信息会被作业历史服务器存储以备之后用户核查。