【实验目的】

  1. 掌握大数据处理与分析的基本思路与流程。
  2. 掌握常用的数据载入、数据预处理方法。
  3. 掌握基本的数据分析方法。

【实验要求】

  1. 保存程序,并自行存档;
  2. 最终的程序都必须经过测试,验证是正确的;
  3. 认真记录实验过程及结果,回答实验报告中的问题。

【实施环境】(使用的材料、设备、软件) Linux操作系统环境,python程序设计语言,Jupyter Notebook编程环境。

【实验内容】
某班进行期末语文、数学、英语考试,得到了每位同学的考试成绩,现需要进行成绩的统计(具体数据如图1所示,其中第一列为语文,第二列为数学,第三列为英语)。请使用Spark计算模型,采用python或scala编程语言,完成下列任务计算。

spark大数据分析与实战答案 spark大数据实验报告_spark大数据分析与实战答案

1.打开jupyter notebook

spark大数据分析与实战答案 spark大数据实验报告_python_02


2.启动hadoop

spark大数据分析与实战答案 spark大数据实验报告_hadoop_03


3.桌面新建experiment06文本

spark大数据分析与实战答案 spark大数据实验报告_spark大数据分析与实战答案_04


jupyter中新建python3程序,重命名为experiment06

spark大数据分析与实战答案 spark大数据实验报告_spark大数据分析与实战答案_05


备注:如果之前运行过sparkContext,需要先停止

spark大数据分析与实战答案 spark大数据实验报告_hadoop_06


4.1 计算数据集中样本数(行数)

注意这里应先导入findspark,初始化后再导入pyspark

spark大数据分析与实战答案 spark大数据实验报告_hadoop_07


spark大数据分析与实战答案 spark大数据实验报告_spark_08


4.2 统计并输出单科满分者

spark大数据分析与实战答案 spark大数据实验报告_hadoop_09


4.3 统计并输出单科0分者

spark大数据分析与实战答案 spark大数据实验报告_hadoop_10


4.4 统计并输出单科最高分者

spark大数据分析与实战答案 spark大数据实验报告_spark大数据分析与实战答案_11


4.5 统计并输出单科的总分

spark大数据分析与实战答案 spark大数据实验报告_spark大数据分析与实战答案_12


4.6 统计并输出每人的总分

spark大数据分析与实战答案 spark大数据实验报告_spark大数据分析与实战答案_13


4.7 统计并输出总分最高分者

spark大数据分析与实战答案 spark大数据实验报告_spark_14


4.8 统计并输出总分最低分者

spark大数据分析与实战答案 spark大数据实验报告_hadoop_15


4.9 统计并输出每科平均分

spark大数据分析与实战答案 spark大数据实验报告_python_16


4.10 统计并输出总分的前三名

spark大数据分析与实战答案 spark大数据实验报告_hadoop_17


5.关闭hadoop

spark大数据分析与实战答案 spark大数据实验报告_spark大数据分析与实战答案_18