idea_pyspark 环境配置

转载

mob604756f145d3 2017-12-16 13:19:00

文章标签 spark python 数据搜索 javascript 文章分类 代码人生

1、配置好Hadoop和spark

2、配置好Pytho3.5

3、安装py4j

　　pip3 install py4j

4、idea 中添加Python插件

file->setting->editor->plugins

idea_pyspark 环境配置_搜索

右边搜索框中搜索Python，下载插件

idea_pyspark 环境配置_搜索_02

5、下载完后，重启软件，建立Python项目，导入pyspark的包文件

idea_pyspark 环境配置_搜索_03

导入步骤：file->project Structure->modules->右边栏中点dependencies->点添加->将"spark/python" 添加进去

6、test:

from pyspark.sql import SparkSession
if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .master("local") \
        .appName("PythonWordCount") \
        .getOrCreate()
    data = spark.read.csv("/lab/data/2/02singleentry.csv")
    data.show(10)

    spark.stop()

7、目前观察不能读取本地的数据，只能读取HDFS上的数据

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。