1、java.lang.OutOfMemoryError: GC overhead limit exceeded
原因:数据量太大,内存不够
解决方案:(1)增大spark.executor.memory的值,减小spark.executor.cores
(2)减少输入数据量,将原来的数据量分几次任务完成,每次读取其中一部分
2、ERROR An error occurred while trying to connect to the Java server (127.0.0.1:57439) Connection refused
原因:(1)节点上运行的container多,每个任务shuffle write到磁盘的量大,导致磁盘满,节点重启
(2)节点其他服务多,抢占内存资源,NodeManager处于假死状态
解决方案:(1)确保节点没有过多其他服务进程
(2)扩大磁盘容量
(3)降低内存可分配量,比如为总内存的90%,可分配内存少了,并发任务数就少了,出现问题概率降低
(4)增大NodeManager的堆内存
3、org.apache.spark.shuffle.FetchFailedException: Failed to connect to /9.4.36.40:7337
背景:shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;
shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。
定位过程:拉取任务运行日志,查看container日志;查看对应ip上NodeManager进程运行日志,路径由yarn-env.sh中YARN_LOG_DIR指定
原因:container请求NodeManager上external shufflle服务,不能正常connect,说明NodeManager可能挂掉了,原因可能是(1)节点上运行的container多,每个任务shuffle write到磁盘的量大,导致磁盘满,节点重启 (2)节点其他服务多,抢占内存资源,NodeManager处于假死状态
解决方案:(1)确保节点没有过多其他服务进程
(2)扩大磁盘容量
(3)降低内存可分配量,比如为总内存的90%,可分配内存少了,并发任务数就少了,出现问题概率降低
(4)增大NodeManager的堆内存
4、org.apache.spark.shuffle.FetchFailedException: Connection from /xxx:7337 closed
背景:shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;
shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。
定位过程:拉取任务运行日志,查看container日志;查看对应ip上NodeManager进程运行日志,路径由yarn-env.sh中YARN_LOG_DIR指定
原因:container已经连接上NodeManager上external shufflle服务,原因可能是
(1)external shuffle服务正常,但在规定时间内将数据返回给container,可能是中间数据量大且文件数多,external shuffle服务搜索数据过程久,最终导致containter误认为connection dead,因此抛出xxx:7337 closed了异常
(2)NameNode进程不正常
解决方案:针对原因(1),调大spark.network.timeout值,如1800s,此参数可以在spark-defaults.conf设置,对所有任务都生效;也可以单个任务设置
针对原因(2),参考org.apache.spark.shuffle.FetchFailedException: Failed to connect to /9.4.36.40:7337的解决方案
5、org.apache.spark.shuffle.FetchFailedException: Failed to send RPC XXX to /xxx:7337:java.nio.channels.ColsedChannelException
背景:shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;
shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。
定位过程:拉取任务运行日志,查看container日志;查看对应ip上NodeManager进程运行日志,路径由yarn-env.sh中YARN_LOG_DIR指定
原因:external shuffle服务将数据发送给container时,发现container已经关闭连接,出现该异常应该和org.apache.spark.shuffle.FetchFailedException: Connection from /xxx:7337 closed同时出现
解决方案:参考org.apache.spark.shuffle.FetchFailedException: Connection from /xxx:7337 closed的解决方案
6、spark任务中stage有retry
原因:下一个stage获取上一个stage没有获取到全部输出结果,只获取到部分结果,对于没有获取的输出结果retry stage以产出缺失的结果
(1)部分输出结果确实已经丢失
(2)部分输出结果没有丢失,只是下一个stage获取结果超时,误认为输出结果丢失
解决方案:针对原因(1),查看进程是否正常,查看机器资源是否正常,比如磁盘是否满或者其他
针对原因(2),调大超时时间,如调大spark.network.timeout值
7、Final app status: FAILED, exitCode: 11, (reason: Max number of executor failures (200) reached)
原因:executor失败重试次数达到阈值
解决方案:1.调整运行参数,减少executor失败次数
2.调整spark.yarn.max.executor.failures的值,可在spark-defaults.conf中调整
确定方式:在日志中搜索"Final app status:",确定原因,在日志统计"Container marked as failed:"出现次数
spark 增加内存参数 spark内存不足
转载本文章为转载内容,我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题,欢迎原作者联系我们进行内容更正或删除文章。
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
spark shell内存设置 spark内存不足
记录排错历程 问题简介:根据尚硅谷数仓4.0学习集群运行了一段时间,可以正常使用spark运行,出现阶段运行情况的红色框,但是不知道为什么突然有一次,返回30041code,无法运行创建spark session。第一种情况:多尝试运行几次 刚开始是觉得集群内存不足,因为我的集群三台机器都是
spark shell内存设置 spark 大数据 HIve on Spark 30041 -
spark driver内存不足 spark内存溢出的原因
Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出Spark 内存模型: Spark在一个Executor中的内存分为三块: &nb
spark driver内存不足 oom spark 内存模型 内存溢出 -
javadate相减获取月份javadate相减获取月份 字符串函数 日期函数 转换函数 数值型函数