由来
Spark 最早源于一篇论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing,
该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集(即 RDD)的概念。
Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。
时间线
- 2009年起源于加州伯克利分校
- 2010年Spark开源
- 2013年捐赠给Apache Foundation
- 2014年Spark成为Apache顶级项目
- 2016年2.0
- 2019年3.0
kafka的使用场景
数据传递工作,需要将数据从一端传递到另一端,不限与两端的程序,在实时领域,主要是用于流式数据处理工作
Spark的组成
Spark是由多个组件组成,主要有Spark Core,Spark SQL,Spark Streaming, Spark MLib, Spark GraphX
Spark Core: Spark的核心
主要维护RDD数据结构
提供RDD各种API
提供了与内存相关的API
Spark SQL: 通过SQL的方式来操作Spark
Spark Streaming:Spark 用于进行流式计算的组件
Spark MLib: Spark 用于进行机器学习的库
Spark GraphX: Spark用于进行图计算的库
kafka的特点
- 可靠性:分布式,分区,复制和容错等
- 可扩展性:kafka消息传递系统松放,无需停机
- 耐用性: kafka使用分布式提交日志,消息持久保存在磁盘上
- 性能:kafka对于发布和订阅消息都具有高吞吐量,即使存储了很多TB的消息,也非常稳定,保证零停机和零数据丢失
Kafka的架构
- kafka Cluster: kafka集群
- broker: kafka的节点
- producer: 生产者
- consumer: 消费者
- Topic: 主题/话题 理解就是一个大的逻辑容器(管道)
- shard: 分片,分片数据与节点数据没有关系,一个topic可以分为N个分片
- replicas: 副本,可以对一个分片构建多个副本,副本数据量最多和节点数据一致
- zookeeper: 存储管理集群的元数据信息
kafka启动
- 启动zookeeper集群
- 启动kafka集群
- 单节点: 每个节点都需要执行
cd /export/server/kafka_2.12-2.4.1/bin
前台启动:
./kafka-server-start.sh ../config/server.properties
后台启动:
nohup ./kafka-server-start.sh ../config/server.properties 2>&1 &
临时数据存储容器需要具备什么特性呢?
- FIFO(先进先出)
- 支持重复读取,支持容错
- 具备高效读取
什么是消息队列
- 同步转异步
- 应用解耦合
- 流量削峰
- 消息驱动系统
消息队列的两种消费模式
- 点对点:一个数据只能被一个消费方来消费数据
- 发布订阅模式: 可以被多个消费方同事接收到