yarn执行mapreduce 和 spark

转载

mob64ca14079fb3 2024-10-13 13:32:30

YARN

YARN进化：MapReduce在0.23版本经过了一系列的优化，现在把MapReduce称为MapReduce2.0或者YARN，它能够支持多种编程模型。
YARN摒弃了MRV1的JobTracker和TaskTracker，采用一种新的AppMaster进行管理，并与两个守护进程ResourceManager和NodeManager一起协同调度和控制任务，避免单一进程服务的管理和调度负载过重。
MRv2的原理是把JobTracker分成两部分，即资源管理和工作任务两个进程。也就是说有一个全局的RM（ResourceManager）和每个应用有一个NM（NodeManager）进程。RM和每个节点也是主从关系，他在整个系统中，调配所有的资源。
RM接收到客户端任务请求后，会交给某个NM并启动一个进程AppMaster负载任务的完成，AppMaster分配任务到其他节点上启动task。
YARN组成：

ResourceManager
NodeManager
ApplicationMaster
Container
MapTask
ReduceTask
YARN计算过程
Client向客户端提交任务
RM分配创建Container并告知NM启动AppMaster
NM接收任务后开辟空间启动AppMaster
NM完成任务后汇报给RM
AppMaster向RM申请运行任务所需资源
AM获取资源后和NM进行通信，启动MapTask和ReduceTask进程，任务正常运行，NM定时向AM汇报工作情况。
任务完成后，AM向RM申请注销自己，释放资源
新旧MapReduce对比
首先客户端不变，API及接口大部分保持兼容
JobTracker和TaskTracker消失，取而代之的是RM，AM，NM.
新框架减少了JobTracker的资源消耗，并且让监测每个Job子任务状态的程序分布式化，更安全、更优美。
在YARN中，AM是一个可变更的部分，用户可以对不同的编程模型写自己的AM，让更多的编程模型能够运行在Hadoop集群中。
对于资源的表示以内存为单位，比之前以slot更合理。
老的框架中，JobTracker有一个很大的负担就是监控job下的task运行情况，现在，这个任务交给了AM，而在RM中有一个ApplicationMasters，它负载监控ApplicationMaster的运行情况，如果出现问题，将会在其他机器上重启。
Container是YARN为了将来做资源隔离而提出的一个框架。

MapReduce

概念：MapReduce是一种编程思想，一种分布式计算模型。它将作业分为两个阶段：map()：任务分解。reduce()：任务汇总

特点：易于编程，良好的扩展性，高容错，适合PB级别数据的离线处理。

数据类型

yarn执行mapreduce 和 spark_序列化

Text对应String的Writable

Writable接口，是根据DataInput和DataOutput实现的简单、有效的序列化对象。
Key和Value必须实现Writable
Key必须实现WritableComparable接口
序列化（Serialization）：把结构化对象转为字节流，便于在网络上传输或写到磁盘永久保存。
反序列化（Deserialization）：序列化的逆过程
分片机制
切片默认多读一行，当最后一片小于分片规定大小的110%，当做一个分片
分片是逻辑上的概念，block是物理上的概念
分片大小：Math.max(minSize, Math.min(maxSize, blockSize));
mapTask数对应分片数
reduceTask数设置 diver端设置：job.setNumReduceTask(3);
Shuffle过程：从map产生数据开始，经过一系列处理，最终成为reduce的直接输入数据的过程，是MapReduce的核心过程。
1.maptask执行，outputcollect收集maptask的输出数据，将数据写入环形缓冲区中，记录起始偏移量
2.环形缓冲区默认大小为100M，当数据达到80M时，记录终止偏移量。
3.启动spiller溢出器，将数据进行分区（默认分组根据key的hash值%reduce数量进行分区），分区内进行快速排序。
4.分区，排序结束后，将数据刷写到磁盘（这个过程中，maptask输出的数据写入剩余20%环形缓冲区，同样需要记录起始偏移量）
5.maptask将形成的多个小文件做归并排序合并成一个大文件
6.当有一个maptask执行完成后，appMaster申请资源，启动reducetask
7.reducetask到运行完成maptask的机器上拉取属于自己分区的数据
8.reducetask将拉取过来的数据进行merge操作，归并排序数据，将数据按相同key“分组”，每组数据调用一次reduce（）方法 9.执行reduce逻辑，将结果输出到文件