Spark 2.x管理与开发-Spark SQL-性能优化(一)在内存中缓存数据(最常用最有效)

性能调优主要是将数据放入内存中操作。

通过spark.cacheTable("tableName")或者dataFrame.cache()。使用spark.uncacheTable("tableName")来从内存中去除table。

Demo案例:

1.从Oracle数据库中读取数据,生成DataFrame

spark.read.format("jdbc")
.option("url","jdbc:oracle:thin:@192.168.88.101:1521/orcl.example.com")
.option("dbtable","scott.emp")
 .option("user","scott")
.option("password","tiger").load

2.将DataFrame注册成表:

oracleDF.registerTempTable("emp")

3.执行查询,并通过Web Console监控执行的时间

spark.sql("select * from emp").show

spark iceberg 表清空数据 spark cachetable_缓存

 

 

4.将表进行缓存,并查询两次,并通过Web Console监控执行的时间

spark.sqlContext.cacheTable("emp")

spark iceberg 表清空数据 spark cachetable_缓存_02

 5.清空缓存:

      spark.sqlContext.cacheTable("emp")

.sqlContext.clearCache

**********自己操作*********

1)概述:

与RDD相似,

在内存中缓存表的数据

把数据缓存到内存中,可以通过直接读取内存中的值来提高性能。

SparkSession.sqlContext.cacheTable(“要缓存的表名”)

----------------------------------------------------------

2)开始操作:

注意:

因为当前操作是要Spark读取MySQL中的数据,所以在启动Spark之前要将之前连接Hive时用的和Hive相关的配置文件都移走(我这里就将这些文件移动到了tmp_files下的spark-hiveHA-hadoopHA目录下了)

spark iceberg 表清空数据 spark cachetable_spark_03

 

spark iceberg 表清空数据 spark cachetable_缓存_04

 

spark iceberg 表清空数据 spark cachetable_spark_05

 

 (1)启动

接下来启动Spark

启动Spark-shell:

[root@bigdata111 bin]# ./spark-shell --master spark://bigdata111:7077 --jars /usr/local/mysql-connector-java-8.0.11.jar  --driver-class-path /usr/local/mysql-connector-java-8.0.11.jar

(2)读取MySQL数据

scala> val mysqlDF=spark.read.format("jdbc").option("url","jdbc:mysql://192.168.212.1:3306/xinrong?serverTimezone=UTC&characterEncoding=utf-8&useSSL=false&allowPublicKeyRetrieval=true").option("user","root").option("password","123456").option("dbtable","student").option("driver","com.mysql.jdbc.Driver").load

(3)建临时的表

scala> mysqlDF.registerTempTable("student")
warning: there was one deprecation warning; re-run with -deprecation for details

这和视图的创建类似,只是视图里没有数据,而表中有数据

(4)开始查询

scala> spark.sql("select * from student").show

 

spark iceberg 表清空数据 spark cachetable_缓存_06

(5)缓存

scala> spark.sqlContext.cacheTable("student")

和RDD类似,这步是标识student表要缓存

再次查询,依然从MySQL中读取数据,这次是将结果存入了缓存中

效果和刚才一样:

spark iceberg 表清空数据 spark cachetable_sql_07

第三次查询,是从缓存中读取的结果数据,效果同上

现在查看Spark的可视化页面,可以看到内存中缓存数据确实可将性能优化很多:

 

spark iceberg 表清空数据 spark cachetable_sql_08

(6)清空缓存

spark.sqlContext.clearCache