所以你可以在windows上用python和scala外壳来安装Spark,但需要注意的是,根据我的经验,windows的性能不如osx和linux。如果你想在windows上设置所有东西,我不久前写了一个简短的说明,你可以查看here。我正在粘贴下面的文本,以防我从该回购移动文件或链接由于其他原因中断。
下载并提取Spark
从apache下载最新版本的spark。
请注意,为您选择的spark版本获得正确的Hadoop二进制文件是非常重要的。请参阅下面关于Hadoop二进制文件的部分。
使用7-zip提取。
安装Java和Python
测试Java和Python
打开命令行并键入java -version。如果安装正确,您将看到如下输出:
java version "1.8.0_121"
Java(TM) SE Runtime Environment (build 1.8.0_121-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode)
键入python或python --version。
第一个将在显示版本信息后打开python shell。第二个将只显示与此类似的版本信息:
Python 3.5.2 :: Anaconda 4.2.0 (64-bit)
下载用于Windows 64位的Hadoop二进制文件
您可能没有在windows上安装Hadoop,但是spark将在其核心中深入查找这个文件和其他二进制文件。谢天谢地,Hadoop贡献者已经编译了这些代码,并且有一个带有Hadoop 2.6二进制文件的repository。这些二进制文件适用于spark版本2.0.2,但不适用于2.1.0。要使用spark 2.1.0,请从here下载二进制文件。
最好的策略是克隆repo并保持Hadoop文件夹与您的spark版本相对应,并将Hadoop-%version%文件夹添加到您的路径中作为HADOOP_HOME。
将Java和Spark添加到环境中
将java和spark的路径分别添加为环境变量java HOME和spark HOME。
测试pyspark
在命令行中,键入pyspark并观察输出。此时spark应该从python shell开始。
设置pyspark以使用Jupyter笔记本
pyspark代码中有使用python shells与pyspark交互的说明,可以通过编辑器进行访问。要在启动pyspark之前使用Jupyter笔记本,请键入以下两个命令:
set PYSPARK_DRIVER_PYTHON=jupyter
set PYSPARK_DRIVER_PYTHON_OPTS='notebook'
设置这些变量后,pyspark将在Jupyter笔记本中启动,默认的SparkContext初始化为sc,SparkSession初始化为spark。ProTip:打开http://127.0.0.1:4040以查看spark UI,其中包含关于您的管道和已完成进程的许多有用信息。任何额外的笔记本打开与火花运行将在连续端口,即4041,4042等。。。
jist认为,为您的spark版本获得正确版本的Hadoop二进制文件至关重要。其余的工作是确保路径和环境变量配置正确。