背景

在做的项目BI 使用的是sparkJDBC来去查询和处理数据。依赖的SparkThiftServer这一块东西还是挺多的,今天来讲一下资源动态分配。有了资源动态分配的功能,使其在处理大数据量或者小数据量的时候,都可以处理,而且相对来说不用一直占用较多资源。
本文大部分参考官方文档,小部分是自己实际测试得出的结论。
官方文档地址:https://spark.apache.org/docs/latest/job-scheduling.html#graceful-decommission-of-executors

前置条件

使用动态资源分配的前置条件有两个

  • 1、设置 spark.dynamicAllocation.enabled 为true
    设置 spark.shuffle.service.enabled 为true
  • 2、需要在hadoop 集群配置文件修改,以及需要将spark shuffle的jar 放到NodeManager(目前只对yarn集群说明,因为最常用)
    参照的官网地址:https://spark.apache.org/docs/latest/running-on-yarn.html#configuring-the-external-shuffle-service
    (这块不详细说明,我们这里集群配置是好的,我这块没有实际操作过,都是公司集群,我这块就不一一说明了)

动态分配的执行机制

执行机制包括申请和废弃资源即executor

  • 1、申请资源
    申请资源机制为 当有还有待完成的task在等待时,当等待时长为spark.dynamicAllocation.schedulerBacklogTimeout(默认为1S)时,将触发请求来申请资源。当申请资源后还体有task在等待的时候,将每spark.dynamicAllocation.sustainedSchedulerBacklogTimeout(默认5S)再申请一次。每次申请的资源将成指数型正常,以1,2,4,8往后递推。
  • 2、删除资源
    删除资源这一点,当一个application闲置超过spark.dynamicAllocation.executorIdleTimeout(默认60S)的时候,将多余的executor移除。
    ######注意
    不幸的事,在验证的时候删除资源这一点并没有验证出来,一个application在完成之后很快的将executor移除了。我不知道这块具体是什么原因。(这边走的默认的配置) 具体如下图,一秒钟就移除了。

资源调度机制

1、默认为FIFO,即先进先出的策略。官网上说当资源过大,后申请的资源会处于等待状态。

but if the jobs at the head of the queue are large, then later jobs may be delayed significantly.

但是我这边使用一个20G 资源的表进行测试,然后再去count(1)小表,这一块照样是可以运行的,所以这一块也让我很困惑。(我本来打算调优至FAIR模式,但是测试完我犹豫了。)

  • 2、FAIR模式
    设置spark.scheduler.mode为FAIR (FAIR 必须大写)

参数配置

这一块需要配置的参数为

./start-thriftserver.sh 
 –master yarn 
 –conf spark.driver.memory=6G 
 –executor-memory 9G
 –executor-cores 3
 –conf spark.shuffle.service.enabled=true 
 –conf spark.dynamicAllocation.enabled=true 
 –conf spark.dynamicAllocation.minExecutors=2 
 –conf spark.dynamicAllocation.maxExecutors=7 
 –conf spark.dynamicAllocation.sustainedSchedulerBacklogTimeout=3s

这一块不需要设置num-executors ,因为即使设置了 ,启动后也会根据这个参数的大小spark.dynamicAllocation.minExecutors,然后移除多余的 executor

实际应用

1、实际应用阶段的话, spark.dynamicAllocation.sustainedSchedulerBacklogTimeout 这个参数可以适当的调小,因为这是资源不够申请资源的时间,因为BI 对于时延还是有一定的要求

  • 2、maxExecutors 的大小应该设置成倍数较好,就是 1+2+4 依次类推
  • 3、spark.dynamicAllocation.minExecutors 根据实际分配的资源以及要处理的数据量有关。这一块的话,我们这边设置的–executor-memory 9G 和–executor-cores 3 spark.dynamicAllocation.minExecutors=2 就可以保证在数据量在1个G 是不需要去申请资源的。当然了,这一块还是要根据实际情况而定。