Apache Hadoop Yarn是Hdoop的一个子项目,被托管在Apache基金会。Yarn被集成在Hadoop2.0中,它相比较Hadoop1.0的主要特点是分离了资源管理器和处理组件。Yarn的诞生是由于需要对存储在Hdfs上数据进行大范围交互模式处理的需求驱动的。基于Yarn的Hadoop2.0的架构提供了一个更加通用的计算平台,不仅仅包含MapReduce。
作为Hadoop2.0的一部分,Yarn掌管了资源管理的能力,而不是在MapRduce和包中,所以数据可以被新的计算范式处理。这使得MapRduce可以更加专注于做它擅长的事,处理数据。有了Yarn,你可以在Hadoop上运行各种各样的应用,所有的应用共享一个资源管理器。许多公司为了迁移到Hadoop已经开始在Yarn上开发应用。
当企业数据存储在HDFS上,能够有多种方式处理数据是很重要的。由于Hadoop2.0和Yarn,企业现在可以在Hadoop上运行流处理,交互式处理和很多其他基于Hadoop的应用。
Yarn能做什么
Yarn能够在以下方面增强Hadoop计算集群的能力:
- Scalability
数据中心的计算能力能够持续的快速增长。因为Yarn ResourceManager专注于资源调度,所以它能够更容易的管理那些超大集群。
- Compatibility with MapReduce
已经存在的MapReduce应用和用户可以继续在Yarn上运行,而不用中断处理做修改。
- Improved cluster utilization
ResourceManager是一个纯粹的调度器,根据各种条件,优化集群资源利用率,例如能力担保,公平性和SLA。另外,不像老的版本,现在没有Named Map和Reduce Slots ,这样可以帮助更好的利用集群资源。
- Support for workloads other than MapReduce
额外的编程范式,例如图处理和迭代式处理,可以用于数据处理。这些增加的处理范式可以使企业实现近实时的和增强的POI数据处理
- Agility
随着MapReduce变成了用户库,它可以独立于底层的资源管理层,以更灵活的方式发展。
How YARN Works
Yarn的基本思想是分隔开JobTracker和TaskTracker的两项主要职能:
- a global ResourceManager
- a per-application ApplicationMaster
- a per-node slave NodeManager and
- a per-application Container running on a NodeManager
在一个新的,通用的hadoop系统中,ResourceManager和NodeManager用一种分布式的方式管理应用。ResourceManager拥有分配给系统中的所有应用程序资源的最终权利。每个应用程序的ApplicationMaster是一个框架实体,负责向ResourceManager申请资源和与NodeManager协同工作以执行和监视组件任务。ResourceManager中的调度程序,根据条件如队列容量,用户限制等,来负责向大量的运行中的应用程序分配资源。调度程序根据应用的资源需求来执行调度方法。NodeManager代表每一台工作机,它负责创建Application Container和监视它们的资源使用信息(如CPU,内存,硬盘,网络),向ResourceManager汇报这些信息。每一个ApplicationMaster有责任从调度器那里申请适当的资源容器,并跟踪任务状态,监控任务进程。从系统角度看,ApplicationMaster像一个标准的容器。