pyspark和spark都需要安装吗 pyspark和spark区别

转载

漫步云端的猪 2023-11-10 01:11:10

文章标签 pyspark和spark都需要安装吗依赖关系数据资源管理器 文章分类 Spark 大数据

Spark 概述

运行速度快

容易使用

Spark本质上计算模式也是MapReduce，但是操作不局限于Map和Reduce两个操作，提供了更多的操作类型。而且Spark会存储在内存中，磁盘IO开销很小。

Spark 生态系统

大数据处理主要包括：

复杂的批量数据处理
基于历史数据的交互式查询
基于实时数据流的数据处理
过去我们需要同时部署三种不同的软件，如MapReduce、Impala、Storm

会存在如下问题：

不同场景之间输入输出数据无法做到无缝共享，通常需要进行数据格式的转换。
不同的软件需要不同的开发和维护团队，带来了较高的使用成本。
比较难以对同一个集群中的各个系统进行统一的资源协调和分配。

而Spark是一套完整的生态系统。可以部署在资源管理器YARN上，提供一站式大数据解决方案。
已经成为伯克利数据分析软件栈BDAS的重要组成部分。

pyspark和spark都需要安装吗 pyspark和spark区别_资源管理器

pyspark和spark都需要安装吗 pyspark和spark区别_pyspark和spark都需要安装吗_02

综上，Spark就是牛逼！

Spark 运行架构

基本概念

RDD：是Resillient Distributed Dataset（弹性【可多可少，分区数量可变】分布式数据集）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。Spark编程核心抽象（重要！！！）。
DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系。
Executor：是运行在工作节点（WorkerNode）的一个进程，负责运行Task。
应用（Application）：用户编写的Spark应用程序。
任务（ Task ）：运行在Executor上的工作单元
作业（ Job ）：一个作业包含多个RDD及作用于相应RDD上的各种操作
阶段（ Stage ）：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为阶段，或者也被称为任务集合，代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集。

Spark 运行架构如下图所示：

pyspark和spark都需要安装吗 pyspark和spark区别_pyspark和spark都需要安装吗_03

这是一种主从架构，一个主节点加上多个从节点。主节点是Driver Program，从节点为Worker Node。

其中Cluster Manager是一种集群资源管理器。

pyspark和spark都需要安装吗 pyspark和spark区别_数据_04

Spark中各种概念之间的相互关系如下：

pyspark和spark都需要安装吗 pyspark和spark区别_pyspark和spark都需要安装吗_05

一个应用由一个Driver和若干个作业构成，一个作业由多个阶段构成，一个阶段由多个没有Shuffle关系的任务组成

pyspark和spark都需要安装吗 pyspark和spark区别_资源管理器_06

pyspark和spark都需要安装吗 pyspark和spark区别_依赖关系_07

pyspark和spark都需要安装吗 pyspark和spark区别_数据_08

Spark 运行基本流程

pyspark和spark都需要安装吗 pyspark和spark区别_pyspark和spark都需要安装吗_09

（1）首先为应用构建起基本的运行环境，即由Driver创建一个SparkContext（总指挥官），进行资源的申请、任务的分配和监控。
（2）资源管理器为Executor分配资源，并启动Executor进程。
（3）SparkContext根据RDD的依赖关系构建 DAG 图，DAG图提交给DAGScheduler 解析成 Stage，然后把一个个 TaskSet 提交给底层调度器 TaskScheduler 处理；Executor SparkContext 申请Task，Task Scheduler将 Task发放给 Executor 运行，并提供应用程序代码。（计算向数据靠拢原则）。
（4）Task在Executor上运行，把执行结果反馈给TaskScheduler，然后反馈给 DAGScheduler，运行完毕后写 SparkContext 入数据并释放所有资源。