conf spark 设置 spark 参数设置

转载

deanyuancn 2023-08-18 16:08:23

文章标签 conf spark 设置 spark 大数据调优参数说明 文章分类 Spark 大数据

Spark调优部分参数

可以在创建SparkSession对象时提供config(key,value)的方式进行赋值

1、shuffle相关调优参数

spark.shuffe.file.buffer
默认值：32K
参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓存大小，将数据写到磁盘之前，会写入buffer缓存中，待缓存写满之后，才会溢写磁盘。
调优：如果作业可用的内存资源较为充足的话，可以适当的增加这个参数的大小(比如64k)，从而减少shuffle write过程中溢写磁盘文件的次数，也可以减少磁盘IO的次数，进而提升性能。在实践中发现合理的调节该参数，性能会有1%-5%的提升。

spark.reducer.maxSizeInFlight
默认值：48M
参数说明：该参数用于设置shuffle read task的buffer缓存大小，而这个buffer缓存决定了每次能够拉取多少数据。
调优：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小(比如96M),从而减少拉取数据的次数，也就可以减少网络传输的次数，进而提升性能。在实践中发现，合理调节该参数，性能会有1%-5%的提升。

spark.shuffle.io.maxRetries
默认值：3
参数说明：shuffle read task从shuffle write task所在节点拉取属于自己的数据时，如果因为网络异常导致拉取失败，是会自动进行重试的。该参数就代表可以充实的最大次数。如果在指定次数之内拉取还是没有成功，就可能导致作业执行失败。
调优：对于那些包含了特别耗时的shuffle操作的作业，建议增加重试最大次数(比如60)，以避免由于JVM的full gc或者网络不稳定等因素导致的数据拉取失败。在实践中发现，对于针对超大数据量的shuffle过程，调节该参数可以大幅度的提升稳定性。

spark.shuffle.io.retryWait
默认值：5s
参数说明：shuffle read task从shuffle write task所在节点拉取属于自己的数据时，如果因为网络异常导致拉取失败，是会自动进行重试的。该参数就代表每次重试拉取数据的等待间隔
调优：建议加大时间隔(比如60s)，提升稳定性

spark.shuffle.memoryFraction
默认值：0.2
参数说明：该参数代表了Executor内存中，分配给shuffle read task进行聚合操作的内存比例，默认是20%
调优：如果内存充足，而且很少使用持久化操作，建议调高这个比例，给shuffle read的聚合操作更多的内存，以避免由于内存不足导致聚合过程中频繁读写磁盘，在实践中发现，合理调节该参数可以江性能提升10%左右。

spark.shuffle.manager
默认值：sort
参数说明：该参数用于设置ShuffleManager的类型，spark1.5以后，有三个可选项：hash、sort和tungsten-sort，HashShuffleManager是spark1.2以前的默认选项。但是spark1.2以及以后的版本默认都是SortShuffleManager了。tungsten-sort与sort类似，但是使用了tungsten计划中的堆外内存管理机制，内存使用效率更高。
调优：由于SortShuffleManager默认会对数据进行排序，因此如果你的业务逻辑中需要该排序机制的话，则使用默认的SortShuffleManager就可以；如果你的业务逻辑不需要对数据进行排序，那么建议参考后面的几个参数台哦有，通过bypass机制或者优化的HashShuffleManager来避免排序操作，同时提供较好的磁盘读写性能，这里有注意的是，tungsten-sort要慎用，还不稳定。

spark.shuffle.consolidateFiles
默认值：false
参数说明：如果使用HashShuffleManager，该参数有效。如果没有设置为ture，那么就会开启consolidate机制，会大幅度合并shuffle write的输出文件，对于shuffle read task数量特别多的情况下，这种方式可以极大的减少磁盘IO开销，提升性能。
调优：如果的确不需要SortShuffleManager的排序机制，那么除了使用bypass机制，还可以尝试将spark.shuffle.manager参数手动指定为hash，使用HashShuffleManager，同时开启consolidate机制，在实践中尝试，发现其性能比开启了bypass机制的SortShuffleManager要高出10%-30%。

2、资源相关调优参数

park.driver.memory
默认值：1G
参数说明：设置Driver端内存大小
调优：不需要过多的资源分配给Driver，因为Driver是不保存具体处理数据的，只会保存一些临时的数据以及元数据信息，当然开发工程中也会使用collect算子将数据收集到Driver，这时候需要确定Driver内存是否足够，可能会OOM。

spark.num.executors
默认值：1
参数说明：设置worker端的Executor数量
调优：可以按照节点的数量进行设置，1:1即可

spark.executor.memory
默认值：1G
参数说明：调节每个Executor的内存大小
调优：适当设置大一些，保存内存被充分使用即可

spark.executor.cores
默认值：1
参数说明：调节执行的cpu数量
调优：越多越好，越多性能越强

spark.executor.memory.over.head
默认值：false
参数说明：设置executor执行的时候，用的内存可能会超过executor.memory,所以会为executor额外预留一部分内存，该参数代表这这部分内存
调优：这里每个其他内存都是20%的，一般不动

spark.sql.files.maxPartitionBytes
默认值：13417728（128M）
参数说明：获取数据分区中的最大字节数
调优：默认即可

spark.sql.files.openCostlnBytes
默认值：4194394（4M）
参数说明：该参数表示4M的小文件会合并到一个分区，用于减少小文件，防止太多单个小文件占用一个分区的情况
调优：可能适当的增大，这样就可以设置每个文件的大小，文件越大产生的文件越少，反之越多，但是也是根据实际情况进行测试调试才能确定是否增大或者是减小

spark.sql.broadcastTimeout
默认值：300
参数说明：广播等待超时时间，单位秒。
调优：如果数据量比较大，广播容易超时，可以适当的增大时间

spark.sql.autoBroadcastJoinThreshold
默认值：10485760（10M）
参数说明：最大广播表的大小，设置为-1可以禁用该功能。当前统计信息仅支持Hive Metastore表
调优：可以禁用此功能，对程序来说没有太大的影响，因为使用范围比较小

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：OpenStackKubernetes搭建 openstack project

下一篇：OpenStack如何给虚拟机增加磁盘 openstack虚拟机迁移原理

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

conf spark 设置 spark 参数设置

conf spark 设置 spark 参数设置

Spark调优部分参数

1、shuffle相关调优参数

2、资源相关调优参数

51CTO博客