MapReduce分布式计算框架
基本流程:
1,大数据经split划分成大小相等的数据块(数据块的大小一般等于HDFS一个块的大小)以及用户作业程序。
2,系统中有一个负责调度的Master节点和许多的Map工作节点,Reduce工作节点
3,用户作业程序提交给Master节点,Master节点寻找合适的Map节点,并将数据传给Map节点,并且Master也寻找合适的Reduce节点并将数据传给Reduce节点
4,Master节点启动Map节点执行程序,Map节点尽可能的读取本地或本机架上的数据块进行计算。(数据本地化是Mapreduce的核心特征)
5,每个Map节点处理读取的数据块,并做一些数据整理,并且将中间结果放在本地而非HDFS中,同时通知Master节点Map工作完成,并告知中间结果的存储位置。
6,Master节点等所有Map工作完成后,开始启动Reduce节点,Reduce节点通过Master节点掌握的中间结果的存储位置来远程读取中间结果。
7,Reduce节点将中间结果处理后将结果输出到一个文件中。
从用户作业程序角度来看:
一个作业执行过程中有一个Jobtracker和多个Tasktracker,分别对应于HDFS中的namenode和datanode。Jobclient在用户端把已配置参数打包成jar文件存储在HDFS,并把存储路径提交给Jobtracker,然后Jobtracker创建每一个Task,并且分发到Tasktracker服务中去执行。
Mapreduce基本工作流程
原创
©著作权归作者所有:来自51CTO博客作者fourier_的原创作品,请联系作者获取转载授权,否则将追究法律责任
上一篇:kubelet创建容器的步骤
下一篇:CRI的机制

提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
springmvc 的原理以及工作流程(面试)
springMVC 工作流程及原理
MVC 工作流程 原理 -
详解Python 中可视化数据分析工作流程
本文将介绍 Python 中可视化数据分析的工作流程,从数据获取到最终的洞见可视化展示。
数据分析 数据 Python 可视化数据分析 -
MapReduce 工作流程
官方给的定义:系统执行排序、将 map 输出作为输入传给 reducer 的
mapreduce big data 大数据 文件写入 属性设置 -
【硬刚Hadoop】HADOOP MAPREDUCE(4):MapReduce工作流程
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。
hadoop big data mapreduce 工作流程 大数据 -
【MapReduce】MR 框架原理 之 工作流程
文章目录流程图Map阶段Reduce阶段流程详解流程图Map阶段Reduce阶段
mapreduce 流程图 自定义