一、安装Spark
1、检查基础环境hadoop,jdk
echo $JAVA_HOME
java -version
start-dfs.sh
jps
2、下载、解压、配置spark
此步骤实验前已经完成,故跳过。
3、环境变量
gedit ~/.bashrc #编辑
source ~/.bashrc #生效
4、试运行Python代码
pyspark #启动pyspark
运行测试
print('spark')
8*8
退出pyspark:exit()
二、Python编程练习:英文文本的词频统计
1、准备文本文件
新建文本文件,并输入数据
gedit text.txt
2、读文件
txt = open("/home/hjq/data/text.txt", 'r').read()
3、预处理:大小写,标点符号,停用词
txt = txt.lower() # 转为小写字母
for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
txt = txt.replace(ch, ' ')
4、分词
words = TestTxt.split()
5、统计每个单词出现的次数
for word in words:
# 若字典中无当前词语则创建一个键值对,若有则将原有值加1
counts[word] = counts.get(word, 0) + 1
6、按词频大小排序
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
7、结果写文件
for i in range(len(items)):
word, count = items[i]
print("{0:<10}{1:>5}".format(word, count))
open('output.txt', 'a').write(word+"\t\t\t"+str(count)+"\n")
打开输出的文件output.txt
gedit output.txt