一、安装Spark

1、检查基础环境hadoop,jdk

echo $JAVA_HOME
java -version
start-dfs.sh
jps

spark 调用python 算法 spark运行python_Python

2、下载、解压、配置spark

此步骤实验前已经完成,故跳过。

3、环境变量

gedit ~/.bashrc  #编辑
source ~/.bashrc  #生效

spark 调用python 算法 spark运行python_文本文件_02

4、试运行Python代码

pyspark #启动pyspark

spark 调用python 算法 spark运行python_spark_03

运行测试

print('spark')
8*8

spark 调用python 算法 spark运行python_Python_04

退出pyspark:exit()

二、Python编程练习:英文文本的词频统计

1、准备文本文件

新建文本文件,并输入数据

gedit text.txt

spark 调用python 算法 spark运行python_spark_05

2、读文件

txt = open("/home/hjq/data/text.txt", 'r').read()

3、预处理:大小写,标点符号,停用词

txt = txt.lower()                           # 转为小写字母
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':   
        txt = txt.replace(ch, ' ')

4、分词

words = TestTxt.split()

5、统计每个单词出现的次数

for word in words:
    # 若字典中无当前词语则创建一个键值对,若有则将原有值加1
    counts[word] = counts.get(word, 0) + 1

6、按词频大小排序

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)

7、结果写文件

for i in range(len(items)):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word, count)) 
    open('output.txt', 'a').write(word+"\t\t\t"+str(count)+"\n")

打开输出的文件output.txt

gedit output.txt

spark 调用python 算法 spark运行python_Python_06