spark集成springboot spark集成kafka_mob6454cc76dff7的技术博客_51CTO博客

spark集成springboot spark集成kafka

关注数据探索先锋

spark集成springboot spark集成kafka

转载

数据探索先锋 2023-08-10 17:28:22

文章标签 spark集成springboot 数据 kafka spark 文章分类 Spark 大数据

最近在考虑Spark在消费Kafka 分区数据的过程中究竟反生了什么? 因为比较疑惑现有系统架构会不会遭遇这方面的瓶颈,遂决定去搞一把,一探究竟.

关于Kafka做一下简短的总结,Kafka可参考附件1:

多个TOPIC分布在多个Broker中
每个TOPIC的数据以分区的方式分布在多个Broker中
一个分区同时只能被一个Consumer消费
同一个TOPIC允许被不同的Group重复消费,Group内不允许重复消费

Spark接入Kafka数据的两种方式Receiver-based && Direct Approach. 各有特点.

Receiver-based,基于接收器的kafka数据消费,

API示例如下

val kafkaStream = KafkaUtils.createStream(streamingContext, [ZK quorum], [consumer group id], [per-topic number of Kafka partitions to consume])

概述

KAFKA高阶API实现,因而编程实现简单.
接收器接负责收数据存储到Sparnk 执行器,可能是内存或者磁盘
默认配置下潜在的数据丢失风险,可以启用客户端日志特性,该操作将对消费的数据进行以日志文件形式进行存储进而避免依赖于ZK的数据消费异常

点晴

基于接收器的Kafka数据消费Kafka分区与RDD分区之间没有关联,进而参数[per-topic number of Kafka partitions to consume] ,实际上只是增加了接收器接收数据的并行度而并没有提高Saprk 处理数据的并行度.
可以使用多个Reciver来并行消费不同Topic 及不同Group下的数据
启用日志特性需要指定数据的存储级别,KafkaUtils.createStream(..., StorageLevel.MEMORY_AND_DISK_SER)

Direct Approach,直接获取数据

概述

一种端对端的数据消费策略,一个Kafka分区对应一个RDD分区.
定期的快速扫描Kafka中每个Partion 及Topic 的最新Offsets以确定当前批次的数据偏移范围,该过程使用低阶API来实现

优势

简化的并行度,基于DirectStream SparkStream将创建多个RDD分区去消费Kafka分区数据
效率上的提升,客户端Offsets不再依赖于ZK存储的Offsets而改由Spark checkPoint 进行跟踪,每次取数据直接使用偏移获取
一次消费保证, Offsets 不在依赖于ZK ,排除了ZK Offsets可能不同步的情况,消除了 Spark和Kafka之间的不一致性,意味着数据的消费由Spark掌控,只要数据存在于Kafka即可.

弊端

offsets由Spark在checkpoint中维护不自动更新ZK中的Offsets,导致一些依赖于ZKOffsets监控的工具失效.

配置项目

auto.offset.reset 消费者首次连接时offsets的生成策略,largest/smallest,分别代表当前最新消息位置/最早消息位置.
spark.streaming.kafka.* 其它可配置的参数
spark.streaming.kafka.maxRetries 最大重试次数
spark.streaming.kafka.maxRatePerPartition 每秒中消费的最大条数 ,该参数对于从数据积压中进行恢复有显著调节作用.

附件1:kafka 知识图解

spark集成springboot spark集成kafka_数据

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：redis 流量控制 redis lua限流

下一篇：ios 图层 app ipad图层是什么

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册