Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai

原创

wx6325d39bd24bd 2022-12-09 10:04:48 ©著作权

文章标签 spark big data scala apache 文章分类 运维

©著作权归作者所有：来自51CTO博客作者wx6325d39bd24bd的原创作品，请联系作者获取转载授权，否则将追究法律责任

Bug

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent failure: Lost task 2.0 in stage 1.0 (TID 3) (DESKTOP-9LANUGK executor driver): org.apache.spark.SparkException: Python worker failed to connect back.
  at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:188)
  at org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:108)
  at org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:121)
  at org.apache.spark.api.python.BasePythonRunner.compute(PythonRunner.scala:162)
  at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:65)
  at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
  at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
  at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
  at org.apache.spark.scheduler.Task.run(Task.scala:131)
  at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:506)
  at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1462)
  at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:509)
  at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)
  at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)
  at java.lang.Thread.run(Unknown Source)
Caused by: java.net.SocketTimeoutException: Accept timed out
  at java.net.DualStackPlainSocketImpl.waitForNewConnection(Native Method)
  at java.net.DualStackPlainSocketImpl.socketAccept(Unknown Source)
  at java.net.AbstractPlainSocketImpl.accept(Unknown Source)
  at java.net.PlainSocketImpl.accept(Unknown Source)
  at java.net.ServerSocket.implAccept(Unknown Source)
  at java.net.ServerSocket.accept(Unknown Source)
  at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:175)
  ... 14 more

Driver stacktrace:
  at org.apache.spark.scheduler.DAGScheduler.failJobAndIndependentStages(DAGScheduler.scala:2454)
  at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2(DAGScheduler.scala:2403)
  at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2$adapted(DAGScheduler.scala:2402)
  at scala.collection.immutable.List.foreach(List.scala:333)
  at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:2402)
  at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1(DAGScheduler.scala:1160)
  at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1$adapted(DAGScheduler.scala:1160)
  at scala.Option.foreach(Option.scala:437)
  at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:1160)
  at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:2642)
  at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2584)
  at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2573)
  at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49)
  at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:938)
  at org.apache.spark.SparkContext.runJob(SparkContext.scala:2214)
  at org.apache.spark.SparkContext.runJob(SparkContext.scala:2235)
  at org.apache.spark.SparkContext.runJob(SparkContext.scala:2254)
  at org.apache.spark.SparkContext.runJob(SparkContext.scala:2279)
  at org.apache.spark.rdd.RDD.$anonfun$collect$1(RDD.scala:1030)
  at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
  at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
  at org.apache.spark.rdd.RDD.withScope(RDD.scala:414)
  at org.apache.spark.rdd.RDD.collect(RDD.scala:1029)
  at org.apache.spark.api.python.PythonRDD$.collectAndServe(PythonRDD.scala:180)
  at org.apache.spark.api.python.PythonRDD.collectAndServe(PythonRDD.scala)
  at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
  at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source)
  at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
  at java.lang.reflect.Method.invoke(Unknown Source)
  at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
  at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
  at py4j.Gateway.invoke(Gateway.java:282)
  at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
  at py4j.commands.CallCommand.execute(CallCommand.java:79)
  at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
  at py4j.ClientServerConnection.run(ClientServerConnection.java:106)
  at java.lang.Thread.run(Unknown Source)
Caused by: org.apache.spark.SparkException: Python worker failed to connect back.
  at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:188)
  at org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:108)
  at org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:121)
  at org.apache.spark.api.python.BasePythonRunner.compute(PythonRunner.scala:162)
  at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:65)
  at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
  at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
  at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
  at org.apache.spark.scheduler.Task.run(Task.scala:131)
  at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:506)
  at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1462)
  at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:509)
  at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source)
  at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)
  ... 1 more
Caused by: java.net.SocketTimeoutException: Accept timed out
  at java.net.DualStackPlainSocketImpl.waitForNewConnection(Native Method)
  at java.net.DualStackPlainSocketImpl.socketAccept(Unknown Source)
  at java.net.AbstractPlainSocketImpl.accept(Unknown Source)
  at java.net.PlainSocketImpl.accept(Unknown Source)
  at java.net.ServerSocket.implAccept(Unknown Source)
  at java.net.ServerSocket.accept(Unknown Source)
  at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:175)
  ... 14 more

搜索了很久，网上没有找到一样报错的，心里默默凉凉，只能不断猜想试错，尝试读懂报错信息。

猜想一

1 首先想着是不是环境配置版本的问题：然后依次查看了java，pyspark，hadoop，spark这些等。

Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai_apache

这里可以看到下载的spark要求的版本hadoop1是3.2，scala是2.13。

查看hadoop版本，没有错。

Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai_scala_02

查看scala的，，命令是spark-shell 没有错。

Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai_big data_03

然后想着java 版本，命令java -version

Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai_big data_04

版本也没有错，奇怪了，而且之前安装我根据别的大佬指示，已经确认版本安装好了

(68条消息) Windows10 下jupyter配置pyspark + jupyterlab 已下载好所有配置文件_数据闲逛人的博客-CSDN博客

Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai_scala_05

然后我再检查一次，

import os
import sys
spark_name = os.environ.get('SPARK_HOME',None)
if not spark_name:
    raise ValueErrorError('spark环境没有配置好')

sys.path.insert(0,os.path.join(spark_name,'python'))
sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.7-src.zip'))
exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())

Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai_apache_06

可以看到，环境配置正确。

猜想二

2 看到是PY4J，想着会不会这个库的问题，就卸载重新下载一次。

首先用pip uninstall py4j进行卸载：

Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai_apache_07

再次，重新下载：

Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai_big data_08

可以看到一堆红色的报错，大概是说py4j和其他版本不依赖了，看到的时候我挺开心的，感觉找到bug原因了。

然后卸载再重新下载要求版本的py4j，

>pip uninstall py4j
pip install py4j==0.10.9.3

Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai_apache_09

解决方法：

import findspark
findspark.init()

成功解决，完美散花！

Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai_scala_10

else：

发现有import findspark，findspark.init()即是是py4j有版本不对，但是不影响使用。主要矛盾是findspark。

附上学习spark的教程：微信读书里面的《spark基础编程》

Py4JJavaError: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent fai_spark_11

上一篇：日常十万个为什么

下一篇：the selection cannot be run on any server的导入外部项目文件出现的一种bug解决方法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯