【实验目的】
- 掌握大数据处理与分析的基本思路与流程。
- 掌握常用的数据载入、数据预处理方法。
- 掌握基本的数据分析方法。
【实验要求】
- 保存程序,并自行存档;
- 最终的程序都必须经过测试,验证是正确的;
- 认真记录实验过程及结果,回答实验报告中的问题。
【实施环境】(使用的材料、设备、软件) Linux操作系统环境,python程序设计语言,Jupyter Notebook编程环境。
【实验内容】
某班进行期末语文、数学、英语考试,得到了每位同学的考试成绩,现需要进行成绩的统计(具体数据如图1所示,其中第一列为语文,第二列为数学,第三列为英语)。请使用Spark计算模型,采用python或scala编程语言,完成下列任务计算。
1.打开jupyter notebook
2.启动hadoop
3.桌面新建experiment06文本
jupyter中新建python3程序,重命名为experiment06
备注:如果之前运行过sparkContext,需要先停止
4.1 计算数据集中样本数(行数)
注意这里应先导入findspark,初始化后再导入pyspark
4.2 统计并输出单科满分者
4.3 统计并输出单科0分者
4.4 统计并输出单科最高分者
4.5 统计并输出单科的总分
4.6 统计并输出每人的总分
4.7 统计并输出总分最高分者
4.8 统计并输出总分最低分者
4.9 统计并输出每科平均分
4.10 统计并输出总分的前三名
5.关闭hadoop