PyCharm搭建Spark开发环境&windows下安装pyspark

原创

塞上江南o 2022-12-28 15:22:00 博主文章分类：software ©著作权

文章标签 spark hadoop python 文章分类 虚拟化云计算

©著作权归作者所有：来自51CTO博客作者塞上江南o的原创作品，请联系作者获取转载授权，否则将追究法律责任

windows下安装pyspark

spark和hadoop版本版本之间有对应关系

安装jdk

PyCharm搭建Spark开发环境&windows下安装pyspark_spark

安装hadoop

下载
hadoop-2.7.7.tar.gz
配置环境变量
不再演示
下载winutils.exe

https://github.com/steveloughran/winutils

选择对应的hadoop版本下载

PyCharm搭建Spark开发环境&windows下安装pyspark_hadoop_02

PyCharm搭建Spark开发环境&windows下安装pyspark_hadoop_03

复制winutils.exe到安装好的hadoop的bin目录下

PyCharm搭建Spark开发环境&windows下安装pyspark_spark_04

安装spark

下载spark-2.4.6-bin-hadoop2.7.tgz

配置环境变量

安装Anaconda3.7

国内下载和安装配置

配置环境变量
复制py4j和pyspark

PyCharm搭建Spark开发环境&windows下安装pyspark_hadoop_05

将D:\spark-2.4.6-bin-hadoop2.7\python\lib下两个包（pyspark.zip，py4j.zip）解压缩后拷贝到D:\Anaconda\libsite-packages目录下,然后全部替换

测试

打开cmd输入pyspark

PyCharm搭建Spark开发环境&windows下安装pyspark_python_06

输入语句

sc.parallelize(["b", "a", "c"]).collect()

PyCharm搭建Spark开发环境&windows下安装pyspark_spark_07

PyCharm搭建Spark开发环境

上一标题是前提

在pycharm中随便建一个python文件
配置

PyCharm搭建Spark开发环境&windows下安装pyspark_hadoop_08

PyCharm搭建Spark开发环境&windows下安装pyspark_spark_09

PYSPARK_PYTHON：python路径SPARK_HOME:spark路径

PyCharm搭建Spark开发环境&windows下安装pyspark_python_10

测试程序

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local").setAppName("myapp")
sc = SparkContext(conf=conf)
print(sc.parallelize([1, 2, 3]).collect())

上一篇：numpy中查看数组的形状和改变数组的维度

下一篇：hive 事务表

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯