意义:

`搭建pycharm远程开发spark 意义在于。我们只需要在pycharm来手动生成执行spark python项目,在linux下默认会生成spark 项目的python文件。不需要在linux下手动新建spark python文件,然后再执行。总之比较方便。


版本

  1. pycharm 2022 专业版
  2. jdk 1.8
  3. spark 2.4.4
  4. scala 2.12
  5. hadoop 2.7.7
  6. python解释器 (3.8.10) (3.7.0) (3.6.1) (3.5.3)(我这里有四个python解释器,系统默认3.8.10,另外三个是我自己装的)
  7. Ubuntu系统 20.04.5

pycharm连接linux:


2.

直接运行pyspark代码提交到yarn pyspark远程提交_pycharm

直接运行pyspark代码提交到yarn pyspark远程提交_pycharm_02


直接运行pyspark代码提交到yarn pyspark远程提交_python_03


pycharm部署linux下的python环境:

直接运行pyspark代码提交到yarn pyspark远程提交_python_04

直接运行pyspark代码提交到yarn pyspark远程提交_python_05

直接运行pyspark代码提交到yarn pyspark远程提交_pycharm_06


直接运行pyspark代码提交到yarn pyspark远程提交_linux_07

编写spark程序

接着在pycharm新建python文件 编写python spark程序

from pyspark import SparkContext
sc = SparkContext("spark://192.168.40.142:7077", "WordCountApp")
rs = sc.textFile("/home/test/wc.txt").flatMap(lambda line: line.split(" ")).map(lambda w: (w, 1)).reduceByKey(lambda x, y: x+y).sortBy(lambda x:x[1], False).collect()
for e in rs:
   print(e)

运行报了个错误

直接运行pyspark代码提交到yarn pyspark远程提交_linux_08

错误1 :JAVA_HOME is not set,RuntimeError

报错一个主要信息就是 JAVA_HOME is not set,RuntimeError。意思是没有设置Java环境变量。我们知道,spark底层是由Scala语言编写的。而Scala是运行在jvm上的。而pyspark只需要用python语言就能够执行spark项目,不需要用用Scala语言来编写。减少学习成本,这里我多插两嘴,简单说说spark,pyspark的执行过程。


  • 比如我想要统计单词出现次数频率的spark项目。它整个过程是怎么样的呢?在driver program中,首先创建sparkcontext对象,这个spark context就是整个过程的指挥官,里面写的该怎么执行单词统计,计算需要的cpu,内存空间资源的多少等等。然后spark context会向cluster manager申请注册资源。cluster manager收到来自spark context所需要资源,就会分配给两个executor运行资源,然后并向spark context指挥官申请工作内容并交给task执行。executor监控task的运行状态,并向cluster manager发送心跳信息,告诉cluster manager我还活着,我在还工作。
    在整个过程 spark context就好比与项目经理,写着整个过程要做什么。cluster manager就是人力资源,或者说是中介,给经理提供人力物力。worker node类比于个车间,车间里面有task,task就是打工仔,专门来干活的,而executor 比task高一个等级,他就是task组长监控task有没有在工作。

直接运行pyspark代码提交到yarn pyspark远程提交_linux_09

  • pyspark整个过程是这样的。py4j是python和scala之间的桥梁。python创建spark context对象会通过py4j在jvm实例化生成spark context对象,实质上就是python通过py4j调用Java的方法。然后生成
    spark context对象,spark context把工作内容代码交给spark worker执行。而在spark node当中,executor执行不了python文件,只能执行java文件。所以必须配置python环境变量,单独开辟python进程,通过socket通信将python语句交给python进程来执行。

解决办法

根据上述spark,和pyspark执行过程。这个错误就很容易解决了。只需在python文件配置Linux下java环境。因为你一开始实例化spark contex对象是在jvm上面实例化的,而jdk包含jvm,因此要配置jdk环境变量。

直接运行pyspark代码提交到yarn pyspark远程提交_spark_10


直接运行pyspark代码提交到yarn pyspark远程提交_spark_11

运行之前保证你的linux下Hadoop,和spark进程都要开启。

之后又报错

直接运行pyspark代码提交到yarn pyspark远程提交_pycharm_12

错误2:22/10/14 20:28:34 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable

22/10/14 20:29:36 ERROR StandaloneSchedulerBackend: Application has been killed. Reason: All masters are unresponsive! Giving up.

22/10/14 20:29:36 WARN StandaloneSchedulerBackend: Application ID is not initialized yet.

报错内容意思是:1.无法加载hadoop库2.应用进程被杀死,原因 因为所有master进程没回应,放弃。3.应用没有被初始化。

解决办法:在python文件配置spark环境变量即可,原因在于python执行的是spark项目,需要spark环境才可以运行。意思是上述python代码 需要python环境+spark环境+jdk环境才可以执行。

直接运行pyspark代码提交到yarn pyspark远程提交_pycharm_13


接着运行又报了个错误

直接运行pyspark代码提交到yarn pyspark远程提交_spark_14

错误3.py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.isEncryptionEnabled does not exist in the JVM

jvm当中没有isEncryptionEnabled。解决办法在最上面添加两行代码

#添加此代码
import findspark
findspark.init()
#添加此代码
 
from pyspark import SparkConf, SparkContext

作用就是初始化找到本机安装的spark的环境

这里要注意你inux下python要有findspark库。不然也会报错,no modular name findspark。一般默认没有的,这是你要下载个findspark,但是有些python版本是不自带pip,所有首先第一步先下载pip
关于下载pip可以参考这个博客 下载完会在你当前路径下生成 get-pip.py 文件。在之前这条命令之前要先安装curl,照着错误提示安装curl,安装curl过程会报很多错误,那个可以不用管。

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py # 下载安装脚本

这里注意,你用那个版本python运行安装脚本,pip会自动安装到那个python版本

sudo python get-pip.py # 运行安装脚本

你用那个版本python,就用对应的pip

pip install findspark  下载findspark库

下载完后运行

直接运行pyspark代码提交到yarn pyspark远程提交_linux_15

错误4TypeError: an integer is required (got type bytes)

上网查找原因他们说 spark2.4.4不支持python3.8,只需要另外安装python3.8一下的版本。选择python3.8以下的解释器运行这个文件就可以了
关于如何安装python可以参考别的博客
()

接着一顿操作,安装完python,重新配置linux下的python环境。选择python3.8以下的解释器

这里注意在编译和安装python过程中会报一下小错误,要留意错误信息。但是并不影响你安装成功。

直接运行pyspark代码提交到yarn pyspark远程提交_spark_16

接着又报错。哈哈哈哈哈笑拉了

错误5 ImportError: No module named ‘_ssl’

原因在于在编译安装python时候,没有把ssl模块编译进去。而ssl模块编译需要一些依赖环境

解决办法:先安装下面两个依赖环境。一开始在网上搜索说要安装openssl-delvel。我试了报了个错误,无法地位软件报e 结果发现这个只有在centos7才有的,而ubuntu是下载下面对应两个《可以参考这个博客》,《关于安装openssl另外一种方法》

sudo apt-get install openssl

sudo apt-get install libssl-dev

sudo apt-get install libffi-dev   #这个不安装会报 错误6

安装完进入python配置目录 我这里是是/home/wfh/Python3.5/Modules
修改两个文件

vim Setup.dist
vim  Setup

直接运行pyspark代码提交到yarn pyspark远程提交_linux_17


将这五行注释全部去掉,然后重新编译安装python。在pychram 部署linux下python3.7解释器。可以部署成功不报刚刚那个错误。接着运行程序

直接运行pyspark代码提交到yarn pyspark远程提交_linux_18


又报另外一个错误。也是没有_ctypes这个模块

错误6 NO module named ‘_ctypes’

上网寻找解决办法,和上一个no module ssl很相似。只需要安装环境依赖就可以了,重头编译安装python

sudo apt-get install libffi-dev

最后重新运行程序

直接运行pyspark代码提交到yarn pyspark远程提交_pycharm_19


成功!!! 呜呜呜呜呜

写于 -2022/10/15 13:39 秋 —by wfh