spark3调优 spark如何调优

转载

墨色天香 2023-08-21 17:07:01

文章标签 spark3调优 spark 并行度 SPARK 文章分类 Spark 大数据

给足资源

分配更多资源：性能调优的王道，就是增加和分配更多的资源，性能和速度的提升是显而易见的；基本上，在一定的范围内，增加资源与性能的提升是成正比的。写成一个复杂的spark作业之后，性能调优的第一步，就是要调节最优的资源配置，在这基之上，如果spark作业能够分配的资源达到你能力范围的顶端，无法再分配更多资源了，公司资源有限，那么才考虑做后面的调优的点

搭建集群

在spark安装包的conf下spark-env.sh

SPARK_WORKER_CORES
SPARK_WORKER_MEMORY
SPARK_WORKER_INSTANCE

提交任务时

在提交任务时使用 spark-submit --master xxx 可设置参数来分配资源

--executor-cores
--executor-memory
--total-executor-cores
--num-executors
    这个配置之前没有见过，是因为我们一直在用standalone模式运行，在standalone模式中默认一个worker只有一个executor，
但在工作中很少有人用standalone模式。在yarn模式下，Application只会启动2个executor，不足我们使用，需要这个配置修改

提高并行度

并行度：其实就是指：spark作业中，各个stage的task的数量，也就是代表了spark在各个阶段的并行度

如果不调节并行度，导致并行度过低，会怎样？

假设：现在spark作业中有50个executor，每个executor有10内存，每个executor有3个cpu core。已将达到了集群或者yarn的资源队列上限。但task没有设置，或者设置的很少，比如就设置了100个task。也就是说：总数有150个cpu core可以并行运行，但每个executor平均分配到2个task，剩了一个cpu core，就浪费掉了。

资源虽然分配到了，但问题是，并行度没有与资源匹配，导致分配的资源都浪费掉了