🐼今天我们来学习阅读spark的执行计划,在学习执行计划之前,我们需要了解spark中的代码是如何执行的,学习代码的执行过程有助于我们加深对spark的理解,对往期内容感兴趣的同学可以查看👇:

  • hadoop专题: hadoop系列文章.
  • spark专题: spark系列文章.
  • flink专题: Flink系列文章.

🐰本文主要是讲解spark sql的代码,从本质上说,操作dataframe和sql,spark都将转换为相同的底层执行计划,那我们这里就以sql代码执行为例。


目录

  • 1. spark代码处理流程
  • 1.1 代码处理详细过程
  • 1.2 核心过程
  • 2. spark查看执行计划
  • 2.1 explain的用法
  • 3. spark阅读执行计划
  • 3.1 阅读 Parsed Logical Plan
  • 3.2 阅读 Analyzed Logical Plan
  • 3.3 阅读 Optimized Logical Plan
  • 3.4 阅读 Physical Plan
  • 4. 总结
  • 5. 参考资料


1. spark代码处理流程

1.1 代码处理详细过程

流程图如下:

spark执行sql spark执行计划_大数据

  1. 将sql语句转化为未决断的逻辑执行计划(未决断的意思就是只验证了sql语法的正确性,未验证表名列名的正确性)
  2. 使用catalog验证第一步中的表名列名信息,转化为逻辑执行计划(catalog描述了数据集的属性和数据集的位置)
  3. 接着对我们的sql语法进行优化,得到优化后的逻辑执行计划
  4. 优化后的逻辑执行计划转化为物理执行计划
  5. 根据合适CBO(代价选择)将物理执行计划转化为可以执行的代码
  6. 转化为rdd去执行任务

1.2 核心过程

spark执行sql spark执行计划_spark_02

  1. 分析
  2. 逻辑优化
  3. 生成物理执行计划
  4. 评估模型分析
  5. 代码生成

2. spark查看执行计划

2.1 explain的用法

下面介绍如何使用explain查询几种执行计划

  • explain():只展示物理执行计划。(使用较多
  • explain(mode=“simple”):只展示物理执行计划。
  • explain(mode=“extended”):展示物理执行计划和逻辑执行计划。
  • explain(mode=“codegen”) :展示要 Codegen 生成的可执行 Java 代码。(使用较多
  • explain(mode=“cost”):展示优化后的逻辑执行计划以及相关的统计。
  • explain(mode=“formatted”):以分隔的方式输出,它会输出更易读的物理执行计划,并展示每个节点的详细信息。

演示一下:我们这里有student表和score表,连接分组操作。

sqlway=spark.sql("""
select student.s_id,count(1)
from student
left join score
on student.s_id=score.s_id
group by student.s_id
""")
sqlway.explain(mode="extended")#展示物理执行计划和逻辑执行计划。

展示逻辑和物理执行计划结果如下:

spark执行sql spark执行计划_explain_03


图片中的各个部分解释如下:

  1. Unresolved 逻辑执行计划:== Parsed Logical Plan ==
    含义:Parser 组件检查 SQL 语法上是否有问题,然后生成 Unresolved(未决断)的逻辑计划,不检查表名、不检查列名。
  2. Resolved 逻辑执行计划:== Analyzed Logical Plan ==
    含义:通过访问 Spark 中的 Catalog 存储库来解析验证语义、列名、类型、表名等。
  3. 优化后的逻辑执行计划:== Optimized Logical Plan ==
    含义:Catalyst 优化器根据各种规则进行优化。
  4. 物理执行计划:== Physical Plan ==
    含义:生成java代码执行

3. spark阅读执行计划

这一部分将通过第二部分中的代码产生的执行进行解读。
悄悄告诉你们,执行计划的阅读方式是从下往上阅读。

3.1 阅读 Parsed Logical Plan

spark执行sql spark执行计划_执行计划_04


这一部分显示的是未决断的逻辑执行计划。从下至上依次是查看表名,然后join,然后聚合。

3.2 阅读 Analyzed Logical Plan

spark执行sql spark执行计划_explain_05


这一部分,是加入了catalog验证表名和列名之后的执行计划,和上一部分的很像,但增加了表的相关信息,#号代表列的序号,L代表长整型整数。

3.3 阅读 Optimized Logical Plan

spark执行sql spark执行计划_执行计划_06


这一部分,是优化后的逻辑执行计划,加入了判断空值、自动过滤等功能,优化了逻辑执行过程。

3.4 阅读 Physical Plan

spark执行sql spark执行计划_spark执行sql_07


这一部分,介绍一些物理执行计划中的名词:

  • HashAggregate:表示数据聚合,一般 HashAggregate 是成对出现,第一个HashAggregate 是将执行节点本地的数据进行局部聚合,另一个 HashAggregate 是将各个分区的数据进一步进行聚合计算。
  • Exchange:表示shuffle,表示需要在集群上移动数据。很多时候HashAggregate 会以 Exchange 分隔开来。
  • Project:表示 SQL 中的投影操作,就是选择列(例如:select name, age…)
  • BroadcastHashJoin:表示通过基于广播方式进行 HashJoin。
  • LocalTableScan :表示全表扫描本地的表。

根据这些,我们可以看出,物理执行计划会去寻找表所在的文件位置,取出所需要的列,规约(预聚合),广播,join的方式,聚合的列等等信息。

4. 总结

在这一部分中,我们对spark sql对运行原理和执行计划进行了说明,学习这一部分的主要原因是让我们更加了解spark的运行机制,为后面我们学习spark的优化做基础。

5. 参考资料

  • 尚硅谷spark3.0
  • spark权威指南