Spark数据分析之pyspark
一、大数据简史,从hadoop到Spark
1.hadoop的出现:
(1)问题:1990年,电商爆发以及机器产生了大量数据,单一的系统无法承担
(2)办法:为了解决(1)的问题许多公司,尤其是大公司领导了普通硬件集群的水平扩展
(3)执行:hadoop应运而生
2.spark的出现:
(1)hadoop面临问题:
- 硬件瓶颈:多年来,内存技术突飞猛进,而硬盘技术没有太大的变化。hadoop主要
运用的是硬盘,没有利用好内存技术。
- 编程困难,hadoop的MapReduce编程不太容易,后续才出现了Pig、Hive
- 场景不适,批处理要根据不同场景进行开发
(2)spark应运而生
3.集群的强大之处:
(1)存储:切割 HDFS的Block
(2)计算:切割 【分布式并行计算】 MapReduce/Spark
(3)存储 + 计算: HDFS/S3 + MapReduce/Spark
二、Spark简介
(1)目标:企业数据处理的统一引擎
(2)特点:
- 广支持:一套系统解决多种环境
- 高速度:内存上运行Hadoop快100倍,硬盘上运行比Hadoop快10倍
- 多接口:如:Python、Java、R...
- 多应用:sparkSQL、sparkStreaming、MLlib、GraphX
(3)为啥spark解决了hadoop慢的问题呢?
- 减少网络使用:Spark设计思想是减少节点间的数据交互
- 运用内存技术:Spark是和内存进行交互,Hadoop是磁盘进行交互
(4)大数据处理的三种情况:
- 复杂的批量处理:时间长,跨度为10min~N hr
- 历史数据为基础的交互式查询:时间通常为10sec~N min
- 实时数据为基础的流式数据:时间通常为N ms~N sec
(5)Spark的对应方案:
- Spark Core:以RDD为基础提供了丰富的基础操作接口,
使得Spark可以灵活处理类似MR的批处理作业
- Spark SQL:兼容HIVE数据,提供比Hive更快的查询速度
(10~100x)的分布式SQL引擎
- Spark Streaming:将流式计算分解成一系列小的批处理作业
利用spark轻量级低时延的框架来支持流数
据处理,目前已经支持Kafka,Flume等
- GraphX:提供图形计算框架,与Pregel/GraphLab兼容
- Milb:提供基于Spark的机器学习算法库
三、Spark Core核心之RDD
(1)RDD是什么:
①RDD是一个抽象类
②RDD支持多种类型,即泛形
③RDD:弹性分布式数据集
弹性 【容错,自动进行数据的修复】
分布式 【不同节点运行】
数据集
- 不可变 (1,2,3,4,5,6)
- 可分区 (1,2,3)(4,5,6)
(2)RDD的特性:
①一个RDD由多个分区/分片组成
②对RDD进行一个函数操作,会对RDD的所有分区都执行相同函数操作
③一个RDD依赖于其他RDD,RDD1->RDD2->RDD3->RDD4->RDD5,若RDD1中某节点数据丢失,
后面的RDD会根据前面的信息进行重新计算
④对于Key-Value的RDD可以制定一个partitioner,告诉他如何分片。常用hash/range
⑤移动数据不如移动计算,注:移动数据,不如移动计算。考虑磁盘IO和网络资源传输等
(3)图解RDD:
RDD图解
(4)SparkContext&SparkConf
SparkContext意义:主入口点
SparkContext作用:连接Spark集群
SparkConf作用:创建SparkContext前得使用SparkConf进行配置,以键值对形式进行
①创建SparkContext
- 连接到Spark“集群”:local、standalone、yarn、mesos
- 通过SparkContext来创建RDD、广播变量到集群
②创建SparkContext前还需要创建SparkConf对象
③SparkConf().setAppName(appname).setMaster('local')这个设置高于系统设置
④pyspark.SparkContext连接到Spark‘集群’即master(local[单机]、Standalone[标准]
、yarn(hadoop上)、mesos),创建RDD,广播变量到集群
⑤代码:
conf = SparkConf().setAppName(appname).setMaster('local')
sc = SparkContext(Conf=Conf)
(5)pyspark的使用:
①默认:pySpark在启动时就会创建一个SparkContext,别名为sc
<SparkContext master = local[*] appName = PySparkShell>
②参数的使用:
./bin/pyspark --master local[4]
./bin/pyspark --master[4] --py-files code.py
(6)RDD的创建:
①集合转RDD
data = [1,2,3]
distData = sc.parallelize(data,3) #这行代码可以将列表转为RDD数据集
distData.collect() #这行代码可以打印输出RDD数据集#【触发一个job】
distData.reduce(lambda a,b :a+b) #【触发一个job】
注意:一个CPU可以设置2~4个partition
②外部数据集转RDD
distFile = sc.textFile("hello.txt") #将外部数据转换为RDD对象
distFile.collect()
(7)提交pyspark作业到服务器上运行
./spark-submit --master local[2] --name spark0301 /home/hadoop/scrip
t/spark0301.py
(8)PySpark实战之Spark Core核心RDD常用算子:
【两个算子】
①transfermation: map、filter【过滤】、group by、distinct
map()是将传入的函数依次作用到序列的每个元素,每个元素都是独自被函数“作用”一次
②action: count, reduce, collect
注意:(1)
1)All transformations in Spark are lazy,in that they do not
compute their results right away.
-- Spark的transformations很懒,因为他们没有马上计算出结果
2)Instead they just remember the transformations applied to some
base dataset
-- 相反,他们只记得应用于基本数据集
(2)
1)action triggers the computation
-- 动作触发计算
2) action returns values to driver or writes data to external storage
-- action将返回值数据写入外部存储
【单词记忆】
applied to:施加到
Instead:相反
in that:因为
external storage:外部存储
map()是将传入的函数依次作用到序列的每个元素,每个元素都是独自被函数“作用”一次
(1)map
map(func)
#将func函数作用到数据集每一个元素上,生成一个新的分布式【数据集】返回
(2)filter
filter(func)
返回所有func返回值为true的元素,生成一个新的分布式【数据集】返回
(3)flatMap #flat压扁以后做map
flatMap(func)
输入的item能够被map或0或多个items输出,返回值是一个【Sequence】
(4)groupByKey:把相同的key的数据分发到一起
['hello', 'spark', 'hello', 'world', 'hello', 'world']
('hello',1) ('spark',1)........
(5)reduceByKey: 把相同的key的数据分发到一起并进行相应的计算
mapRdd.reduceByKey(lambda a,b:a+b)
[1,1] 1+1
[1,1,1] 1+1=2+1=3
[1] 1
(6)左连接:以左表为基准
右连接:以右表为基准
全连接:以左右都为基准
练习1:Transformation算子编程
from pyspark import SparkConf, SparkContext
if __name__ == '__main__':
conf = SparkConf().setMaster("local[2]").setAppName("spark0401")
sc = SparkContext(conf=conf)
'''
map:
map(func)
将func函数作用到数据集的每个元素上,生成一个新的分布式数据集返回
'''
print("***************************map***************************")
def my_map():
# 创建一个序列
data = [1,2,3,4,5]
# 将序列转换为RDD
rdd1 = sc.parallelize(data)
# 使用函数对RDD进行作用,生成RDD2
rdd2 = rdd1.map(lambda x:x*2)
# 使用collect()讲结果输出
print(rdd2.collect())
my_map()
def my_map2():
a = sc.parallelize(["dog","tiger","lion","cat","panter","eagle"])
b = a.map(lambda x:(x,1)) #进来一个x,返回一个(x,1)的形式
print(b.collect())
my_map2()
print("***************************filter***************************")
def my_filter():
#给一个数据
data = [1,2,3,4,5]
rdd1 = sc.parallelize(data)
mapRdd = rdd1.map(lambda x:x**2)
filterRdd = mapRdd.filter(lambda x:x>5)
print(filterRdd.collect())
'''
filter:
filter(func)
返回所有func返回值为true的元素,生成一个新的分布式数据集返回
'''
def my_filter():
data = [1,2,3,4,5]
rdd1 = sc.parallelize(data)
mapRdd = rdd1.map(lambda x:x*2)
filterRdd = mapRdd.filter(lambda x:x > 5)
print(filterRdd.collect())
print(sc.parallelize(data).map(lambda x:x*2).filter(lambda x:x>5).collect())
my_filter()
print("***************************flatMap()***************************")
#Wordcount第一步:
def my_flatMap():
#flatMap,将东西压扁/拆开 后做map
data = ["hello spark","hello world","hello world"]
rdd = sc.parallelize(data)
print(rdd.flatMap(lambda line:line.split(" ")).collect())
my_flatMap()
print("***************************groupBy()***************************")
def my_groupBy():
data = ["hello spark","hello world","hello world"]
rdd = sc.parallelize(data)
mapRdd = rdd.flatMap(lambda line:line.split(" ")).map(lambda x:(x,1))
groupByRdd = mapRdd.groupByKey()
print(groupByRdd.collect())
print(groupByRdd.map(lambda x:{x[0]:list(x[1])}).collect())
my_groupBy()
print("***************************reduceByKey()***************************")
#出现Wordcount结果
def my_reduceByKey():
data = ["hello spark", "hello world", "hello world"]
rdd = sc.parallelize(data)
mapRdd = rdd.flatMap(lambda line: line.split(" ")).map(lambda x: (x, 1))
reduceByKeyRdd = mapRdd.reduceByKey(lambda a,b:a+b)
print(reduceByKeyRdd.collect())
my_reduceByKey()
print("***************************sortByKey()***************************")
#将Wordcount结果中数字出现的次数进行降序排列
def my_sort():
data = ["hello spark", "hello world", "hello world"]
rdd = sc.parallelize(data)
mapRdd = rdd.flatMap(lambda line: line.split(" ")).map(lambda x: (x, 1))
reduceByKeyRdd = mapRdd.reduceByKey(lambda a, b: a + b)
#reduceByKeyRdd.sortByKey().collect() 此时是按照字典在排序
#reduceByKeyRdd.sortByKey(False).collect()
#先对对键与值互换位置,再排序,再换位置回来
reduceByKey=reduceByKeyRdd.map(lambda x:(x[1],x[0])).sortByKey(False).map(lambda x:(x[1],x[0])).collect()
print(reduceByKey)
my_sort()
print("***************************union()***************************")
def my_union():
a = sc.parallelize([1,2,3])
b = sc.parallelize([3,4,5])
U = a.union(b).collect()
print(U)
my_union()
print("***************************union_distinct()***************************")
def my_distinct():
#这个和数学并集一样了
a = sc.parallelize([1, 2, 3])
b = sc.parallelize([3, 4, 2])
D = a.union(b).distinct().collect()
print(D)
my_distinct()
print("***************************join()***************************")
def my_join():
a = sc.parallelize([("A", "a1"), ("C", "c1"), ("D", "d1"), ("F", "f1"), ("F", "f2")])
b = sc.parallelize([("A", "a2"), ("C", "c2"), ("C", "c3"), ("E", "e1")])
J = a.fullOuterJoin(b).collect
print(J)
my_join()
sc.stop()
'''
Spark Core核心算子回顾
-- Transformation算子编程:
map、filter、groupByKey、flatMap、reduceByKey、sortByKey、join等
'''
练习2:Action算子编程
from pyspark import SparkConf, SparkContext
if __name__ == '__main__':
conf = SparkConf().setMaster("local[2]").setAppName("spark0401")
sc = SparkContext(conf=conf)
def my_action():
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
rdd = sc.parallelize(data)
rdd.collect()
rdd.count()
rdd.take(3) #取前三个
rdd.max() #最大值
rdd.min() #最小值
rdd.sum() #求和
rdd.reduce(lambda x, y: x + y) #相邻两个相加
rdd.foreach(lambda x: print(x))
my_action()
sc.stop()
四、PySpark运行模式【一份代码可在多个模式上运行】:
(1)local模式:主要是开发和测试时使用
--master 集群
--name 应用程序名称
--py-file
例子:
./spark-submit --master local[2] --name spark-local /home/hadoop/
script/spark0402.py file:///home/hadoop/data/hello.txt file:///home/hadoop/
wc/output
注意:
local:运行在一个线程上
local[k]:运行在k个线程上
local[K,F]:运行在K线程上,和最大错误设置
local[*]:用本地尽可能多的线程运行
将上述例子中的local[2]改为其他模式名即可在对应模式上运行
(2)standalone模式
hdfs: NameNode DataNode
yarn: ResourceManager NodeManager
master:
worker:
$SPARK_HOME/conf/slaves
hadoop000
假设你有5台机器,就应该进行如下slaves的配置
hadoop000
hadoop001
hadoop002
hadoop003
hadoop005
如果是多台机器,那么每台机器都在相同的路径下部署spark
启动spark集群
$SPARK_HOME/sbin/start-all.sh
ps: 要在spark-env.sh中添加JAVA_HOME,否则会报错
检测:jps: Master和Worker进程,就说明我们的standalone模式安装成功
(3)yarn模式:
- spark作为作业客户端而已,他需要做的事情就是提交作业到yarn上去执行
- yarn vs standalone
yarn: 你只需要一个节点,然后提交作业即可
这时是不需要spark集群的(不需要启动master和worker的)
standalone:你的spark集群上每个节点都需要部署spark
然后需要启动spark集群(需要master和worker)
- 例子:
./spark-submit --master yarn --name spark-yarn /home/hadoop/
script/spark0402.py hdfs://hadoop000:8020/wc.txt hdfs://hadoop000:8020/
wc/output
- 指定hadoop_conf或者yarn_conf_dir是为了指定加载其路径下面的配置文件,spark 想要跑在yarn
上势必要知道HDFS 和 yarn 的信息,不然 spark怎么找到yarn
- yarn支持client和cluster模式:那么driver运行在哪里呢?
本地时是client【默认】:提交作业的进程是不能停止的,否则作业就挂了
集群时是cluster:提交完作业,那么提交作业端就可以断开了,因为driver是运行在
am(application master)里面的
- yarn相关的报错信息:
Error: Cluster deploy mode is not applicable to Spark shells
pyspark/spark-shell : 交互式运行程序 client
如何查看已经运行完的yarn的日志信息: yarn logs -applicationId <applicationId>
五、Spark核心概述
1.名词解析:
Application :基于Spark的应用程序 = 1 driver + executors
pyspark、spark-shell都是应用程序
Driver program :在py文件的主方法__main__下创建一个SparkContext
Cluster manager :从外部去获取资源,同时可以设置申请多少资源
spark-submit --master local[2]/spark://hadoop000:7077/yarn
Deploy mode :区分driver在什么地方启动
In "cluster" mode, the framework launches the driver inside of the cluster.
In "client" mode, the submitter launches the driver outside of the cluster.
Worker node :工作节点,就像manage节点
Any node that can run application code in the cluster
standalone: slave节点 slaves配置文件
yarn: nodemanager
Executor :为工作节点上的应用程序启动的进程
- runs tasks
- keeps data in memory or disk storage across them
- Each application has its own executors.
Task :一个工作单元,将被发送给一个执行者
Job :一个action对应一个job
①Spark=a driver + executors
②driver = main方法 + sparkContext
③executors是一个进程启动在worknode上,能够运行任务能够缓存数据,而且每个应用程序有一组独立的executor
④申请资源时是通过Cluster manager去申请的,可以自定义本地或集群
⑤自定义运行时,Deploy mode可以跑在cluster上也可以跑在client上
⑥Executor运行在worknode上,task运行在Executor上,task(map、flatMap等属于task)从driver上发起
⑦Job是一个并行的计算,由多个①Spark=a driver + executors
②driver = main方法 + sparkContext
③executors是一个进程启动在worknode上,能够运行任务能够缓存数据,而且每个应用程序有一组独立的executor
④申请资源时是通过Cluster manager去申请的,可以自定义本地或集群
⑤自定义运行时,Deploy mode可以跑在cluster上也可以跑在client上组成,spark中一个action(save,collect)对应一个job
⑥Stage:一个job会被拆分为一个小的任务集,一个stage的边界往往是从某个地方取数据开始,到shuffle结束
六、Spark SQL
(1)Spark SQL前世今生:
SQL:MySQL、Oracle、DB2、SQLService
- 我们很熟悉的数据处理语言是SQL
- 但是数据量越来越大 ==> 大数据(Hive、Spark Core)
-- hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,
并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
-- Spark Core:得熟悉Java、Python等语言
- 综上:能通过SQL语言处理大数据问题是人们最喜欢的啦
出现了:SQL on Hadoop
Hive on Map Reduce
Shark【没有了。。。】
Impala:比较吃内存,Cloudera
Presto:京东再用
发展:
Hive on Map Reduce
Shark on Spark
Spark SQL:on Spark:Spark社区的
共同点:metastore mysql,基于源数据建表
Hive on Spark:Hive社区的不同于Spark SQL,在Hive能运行的SparkSQL不一定可以
(2)官方描述:Spark SQL是Apache Spark的一个模块,是用来处理结构化数据的
①编程和SQL可以无缝对接:
支持SQL和DATa Frame API(Java、Scala、Python、R)
代码示例:results = spark.sql("SELCET * FROM people")
names = results.map(lambda p:p.name)
②统一的数据访问:可以直接将Hive、ORC、JSON、JDBC结果做连接
spark.read.json("s3n://...").registerTempTable("json")
results = spark.sql(
"""SELECT *
FROM people
JOIN hson ...""")
查询和连接不同数据源【Spark SQL不仅仅是SQL】
③Spark SQL 可以使用已经存在的Hive仓库matastores,UDFs等
④提供了标准的JDBC、ODBC接口,外部工具可以直接访问Spark
结:Spark SQL 强调的是“结构化数据”而非“SQL”
发布于 2019-10-08