使用mapreduce 清洗数据 mapreduce数据清洗过程_mob64ca13f937ae的技术博客_51CTO博客

使用mapreduce 清洗数据 mapreduce数据清洗过程

关注 mob64ca13f937ae

文章目录

概述
主要流程图
详细流程
总结

使用mapreduce 清洗数据 mapreduce数据清洗过程

转载

mob64ca13f937ae 2024-08-15 10:43:32

文章标签 使用mapreduce 清洗数据数据缓存后台线程 文章分类 架构后端开发

概述

MapReduce 中， Map 阶段处理的数据如何传递给 Reduce 阶段，是 - MapReduce 框架中最关键的一个流程，这个流程就叫 Shuffle
Shuffle：数据混洗 ——（核心机制：数据分区，排序，缓存）
具体来说：就是将 MapTask 输出的处理结果数据，分发给 ReduceTask，并在分发的过程中，对数据按 key 进行了分区和排序。

主要流程图

使用mapreduce 清洗数据 mapreduce数据清洗过程_后台线程

Shuffle 是 MapReduce 处理流程中的一个过程，它的每一个处理步骤是分散在各个 MapTask 和 ReduceTask 节点上完成的，整体来看，分为 3个操作：
（1）Partition（分区，必要）
（2）Sort （根据 key 排序，必要）
（3）Combiner （进行局部 value 的合并，非必要）

详细流程

1.Collect 阶段：MapTask 收集我们的 map()方法输出的 kv 对，放到内存缓冲区中。
注意：每个MapTask都有一个环形内存缓冲区，用于储存任务的输出
2.Spill 阶段：内存中的数据量达到一定的阈值80%，一个后台线程就会不断地将数据溢出到本地磁盘文件，可能会溢出多个文件。在写磁盘过程中，map 输出继续被写到缓冲区，但如果在此期间缓冲区被填满，map 会阻塞直到写磁盘过程完成，而不会覆盖缓冲区中已有的数据。
在写磁盘前，线程首先根据数据最终要传送到的 Reducer（通过调用 Partitioner 的 getPartition() 方法就能知道该输出要送往哪个 Reducer）把数据划分成相应的分区（partition）。在每个分区中，后台线程按键进行内排序，如果有 Combiner，还要对排序后的数据进行 Combiner。
3.Merge 阶段：当整个 MapTask 的记录全部写完后，这些溢出文件会被合并为一个分区且排序的文件。

使用mapreduce 清洗数据 mapreduce数据清洗过程_缓存_02

4.Copy 阶段：ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据。每个 MapTask 的完成时间可能不同，因此只要有一个任务完成，ReduceTask 就开始复制（copy）其输出。
5.Merge阶段：在 ReduceTask 远程复制数据的同时，ReduceTask会对同一个分区的来自不同MapTask的结果文件进行合并。
6.Sort阶段：在对数据进行合并的同时，会进行排序操作，由于 MapTask 阶段已经对数据进行了局部的排序，ReduceTask 只需做一次归并排序就可以保证 Copy 的数据的整体有效性。
7.合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对，调用用户自定义的reduce()方法）

总结

1.Map 阶段的输出是写入本地磁盘而不是 HDFS，但是一开始数据并不是直接写入磁盘而是缓冲在内存中。
2.缓存的好处就是减少磁盘 I/O 的开销，提高合并和排序的速度。
3.内存缓冲区的大小默认是 100M（原则上说，缓冲区越大，磁盘 io 的次数越少，执行速度就越快。缓冲区的大小可以通过 --mapreduce.task.io.sort.mb 参数调整），所以在编写 map 函数的时候要尽量减少内存的使用，为 Shuffle 过程预留更多的内存，因为该过程是最耗时的过程。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：nemo添加鼠标右键怎么添加鼠标右键内容

下一篇：vfp数据库中删除行 vfp中删除记录有哪两种

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册