目录
- windows下安装pyspark
- PyCharm搭建Spark开发环境
windows下安装pyspark
spark和hadoop版本版本之间有对应关系
- 安装jdk
- 安装hadoop
- 下载
hadoop-2.7.7.tar.gz - 配置环境变量
不再演示
- 下载winutils.exe
https://github.com/steveloughran/winutils
选择对应的hadoop版本下载
- 复制winutils.exe到安装好的hadoop的bin目录下
- 安装spark
下载spark-2.4.6-bin-hadoop2.7.tgz
- 配置环境变量
- 安装Anaconda3.7
国内下载和安装配置
- 配置环境变量
- 复制py4j和pyspark
将D:\spark-2.4.6-bin-hadoop2.7\python\lib下两个包(pyspark.zip,py4j.zip)解压缩后拷贝到D:\Anaconda\libsite-packages目录下,然后全部替换
- 测试
- 打开cmd输入pyspark
- 输入语句
PyCharm搭建Spark开发环境
上一标题是前提
- 在pycharm中随便建一个python文件
- 配置
PYSPARK_PYTHON:python路径
SPARK_HOME:spark路径
- 测试程序