1、java.lang.OutOfMemoryError: GC overhead limit exceeded
原因:数据量太大,内存不够
解决方案:(1)增大spark.executor.memory的值,减小spark.executor.cores
         (2)减少输入数据量,将原来的数据量分几次任务完成,每次读取其中一部分

2、ERROR An error occurred while trying to connect to the Java server (127.0.0.1:57439) Connection refused
原因:(1)节点上运行的container多,每个任务shuffle write到磁盘的量大,导致磁盘满,节点重启
     (2)节点其他服务多,抢占内存资源,NodeManager处于假死状态
解决方案:(1)确保节点没有过多其他服务进程
         (2)扩大磁盘容量
         (3)降低内存可分配量,比如为总内存的90%,可分配内存少了,并发任务数就少了,出现问题概率降低
         (4)增大NodeManager的堆内存

3、org.apache.spark.shuffle.FetchFailedException: Failed to connect to /9.4.36.40:7337
背景:shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;
     shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。
定位过程:拉取任务运行日志,查看container日志;查看对应ip上NodeManager进程运行日志,路径由yarn-env.sh中YARN_LOG_DIR指定
原因:container请求NodeManager上external shufflle服务,不能正常connect,说明NodeManager可能挂掉了,原因可能是(1)节点上运行的container多,每个任务shuffle write到磁盘的量大,导致磁盘满,节点重启 (2)节点其他服务多,抢占内存资源,NodeManager处于假死状态
解决方案:(1)确保节点没有过多其他服务进程
         (2)扩大磁盘容量
         (3)降低内存可分配量,比如为总内存的90%,可分配内存少了,并发任务数就少了,出现问题概率降低
         (4)增大NodeManager的堆内存

4、org.apache.spark.shuffle.FetchFailedException: Connection from /xxx:7337 closed
背景:shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;
     shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。
定位过程:拉取任务运行日志,查看container日志;查看对应ip上NodeManager进程运行日志,路径由yarn-env.sh中YARN_LOG_DIR指定
原因:container已经连接上NodeManager上external shufflle服务,原因可能是
     (1)external shuffle服务正常,但在规定时间内将数据返回给container,可能是中间数据量大且文件数多,external shuffle服务搜索数据过程久,最终导致containter误认为connection dead,因此抛出xxx:7337 closed了异常
     (2)NameNode进程不正常
解决方案:针对原因(1),调大spark.network.timeout值,如1800s,此参数可以在spark-defaults.conf设置,对所有任务都生效;也可以单个任务设置
        针对原因(2),参考org.apache.spark.shuffle.FetchFailedException: Failed to connect to /9.4.36.40:7337的解决方案

5、org.apache.spark.shuffle.FetchFailedException: Failed to send RPC XXX to /xxx:7337:java.nio.channels.ColsedChannelException
背景:shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;
     shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。
定位过程:拉取任务运行日志,查看container日志;查看对应ip上NodeManager进程运行日志,路径由yarn-env.sh中YARN_LOG_DIR指定
原因:external shuffle服务将数据发送给container时,发现container已经关闭连接,出现该异常应该和org.apache.spark.shuffle.FetchFailedException: Connection from /xxx:7337 closed同时出现
解决方案:参考org.apache.spark.shuffle.FetchFailedException: Connection from /xxx:7337 closed的解决方案

6、spark任务中stage有retry
原因:下一个stage获取上一个stage没有获取到全部输出结果,只获取到部分结果,对于没有获取的输出结果retry stage以产出缺失的结果
     (1)部分输出结果确实已经丢失
     (2)部分输出结果没有丢失,只是下一个stage获取结果超时,误认为输出结果丢失
解决方案:针对原因(1),查看进程是否正常,查看机器资源是否正常,比如磁盘是否满或者其他
         针对原因(2),调大超时时间,如调大spark.network.timeout值

7、Final app status: FAILED, exitCode: 11, (reason: Max number of executor failures (200) reached)
原因:executor失败重试次数达到阈值
解决方案:1.调整运行参数,减少executor失败次数
        2.调整spark.yarn.max.executor.failures的值,可在spark-defaults.conf中调整
确定方式:在日志中搜索"Final app status:",确定原因,在日志统计"Container marked as failed:"出现次数