什么是spark

官网地址:http://spark.apache.org/

1. spark历史及简介

spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。
12年正式开源,距今6年历史。

2.spark四大特性

  • 高效性
  • 在内存中比MapReduce快100倍,disk中快10倍
  • 易用性
  • 易用性强上手快,支持java,scala,python,R语言
  • 通用性
  • 应用广,可包含大数据查询,流式计算,机器学习,图计算
  • 兼容性
  • 可以在各个平台下运行

3.spark的组成(基本组件)

SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。

SparkSQL:Spark Sql 是Spark来操作结构化数据的程序包,可以让我使用SQL语句的方式来查询数据,Spark支持 多种数据源,包含Hive表,parquest以及JSON等内容。

SparkStreaming: 是Spark提供的实时数据进行流式计算的组件。

4. Spark比MapReduce快的原因

  1. Spark是支持基于内存的迭代,而Hadoop是不支持基于内存的迭代
  2. spark是粗粒度资源调度,实现资源的复用
  3. Spark支持DAG有向无环图,使task进行管道计算
  4. Spark根据不通的场景选择不通的shuffle,其中HashShuffle不排序;Spark的shuffle比MR性能高:Spark默认Sort Shuffle,它没有很多的磁盘小文件

5. Spark的运行模式

  • local:本地模式
  • standalone:Spark自己可以给自己分配资源(master,worker)
  • yarn:Spark可以运行在yarn上面
  • mesos:Spark可以运行在Mesos里面(Mesos 类似于yarn的一个资源调度框架)

6. Spark运行架构

国外免费正规spark网站 中国正规spark网站_hadoop

Spark运行架构的设计
  1. Cluster Manager : 集群资源管理器,可以是自带的Mesos 也可以是Yarn
  2. Worker Node : 运行作业任务的工作节点
  3. Driver :每个应用的任务控制节点
  4. Executor :每个工作节点负责具体任务的执行过程

Spark相关名词解释

  • RDD:是Resillient Distributed Dataset(弹性分布式数据集)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。
  • DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系。
  • Application:用户编写的Spark应用程序。
  • Executor:是运行在工作节点(WorkerNode)的一个进程,负责运行Task。
  • Task:运行在Executor上的工作单元 。
  • Job:一个Job包含多个RDD及作用于相应RDD上的各种操作。
  • Stage:是Job的基本调度单位,一个Job会分为多组Task,
    每组Task被称为Stage, 或者也被称为TaskSet,代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集。