spark 分组合并 spark分片_mob6454cc784c23的技术博客_51CTO博客

spark 分组合并 spark分片

关注编程小天才

spark 分组合并 spark分片

转载

编程小天才 2023-11-10 16:58:17

文章标签 spark 分组合并 spark 大数据数据设计模式 文章分类 Spark 大数据

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

通俗点来讲，可以将 RDD 理解为一个分布式对象集合，本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区，每个分区就是一个数据集片段。一个 RDD 的不同分区可以保存到集群中的不同结点上，从而可以在集群中的不同结点上进行并行计算。
关于spark 的计算下面这个word count 的demo图应该都见过太多次了

spark 分组合并 spark分片_spark 分组合并

如果要真正理解计算的话，可以结合装饰者设计模式来理解，如常见的java 的Io流结合缓冲流就是一个常见装饰者设计模式。

spark 分组合并 spark分片_设计模式_02

其实spark的多个算子也是通过这种形式去实现的rdd的数据传递。

spark 分组合并 spark分片_设计模式_03

通过这两张图可以非常清楚的发现rdd的实现本质上是结合的装饰者设计模式，与io流及其相似。

io流单纯的new 对象的时候不会读取数据，只有read的时候也就是用的时候才会开始读取数据，这与spark的触发算子功能本质一样。

当然区别也有比如io流会在缓冲区临时存储数据，但是rdd是不保存数据的。

使用seq或者list进行makeRdd时传入分区参数数据分配方式取决于以下底层核心源码：根据公式可分别计算出每个分片里存的数据位置

spark 分组合并 spark分片_spark 分组合并_04

cache persist checkpoint

cache:将数据临时存储在内存中进行数据重用，会在血缘关系中添加新的依赖。一旦出现问题，可以从头重新读取数据

persist:将数据临时存储在从磁盘文件中进行数据重用（具体需要自己指定存储级别）涉及到磁盘io 性能较低，但是数据安全，如果作业执行完毕，临时保存的数据文件就会丢失

checkpoint：将数据长久地保存在磁盘文件中进行数据重用涉及到磁盘IO，性能较低，但是数据安全。为了保证数据安全，所以一般情况下，会独立执行作业

为了能够提高效率，一般情况下，是需要和cache联合使用，

执行过程中，会切断学院关系，重新建立器新的血缘关系 checkpoint等同于改变数据源。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：ios 抽象方法抽象id

下一篇：ios图片长按禁用苹果图片长按不弹窗

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册