大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!
提问:大家觉得成绩的高低都和哪些因素有关呢?男女生之间在科目上是否有明显的差异呢?
前言
又到了每周末知识分享环节。这次给大家分享的是kaggle上的一个非常有意思的项目,我们希望从中发现学生的测验表现与标签之间的关系。
总之,本次项目干货满满,除了通过绘图等常规手段之外,也用到了t检验等假设检验的方法来力求让结论更具说服力。
下面开始项目的正式介绍。
目录
- 前言
- 1.项目介绍
- 1.1 项目介绍
- 1.2 数据介绍
- 2. 数据整理
- 3. 学生成绩分析
- 3.1 学生整体成绩分布
- 3.2 不同学科成绩间的关联度以及不同学生人群擅长科目
- 3.3 高分学生人群画像
- 3.3.1 父母学历
- 3.3.2 学生性别
- 结束语
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import scipy.stats as stats
import scipy
from scipy.stats import ttest_ind
from scipy.stats import chisquare
from scipy.stats import chi2_contingency
import numpy as np
1.项目介绍
1.1 项目介绍
本文数据集来自竞赛平台Kaggle,共拥有1000条数据,并已经过脱敏处理。数据集共包含9个标签,我们希望从中发现学生的测验表现与标签之间的关系。
1.2 数据介绍
以下标签解释:
- Unnamed:学生编号
- race/ethnicity:种族
- parental level of education:父母受教育程度
- bachelor’s degree: 学士学位
- some college:大学肄业
- master’s degree:硕士学位
- associate’s degree:副学士
- high school:高中
- some high school:高中肄业
- lunch:午餐花费
- Standard: 标准
- free/reduced: 学校免费提供或低于标准
- test preparation course: 是否完成与考试相关课程
- none: 未完成
- completed: 完成
- math percentage:数学成绩
- reading score percentage: 阅读成绩
- writing score percentage: 写作成绩
- sex: 性别
2. 数据整理
data = pd.read_csv('Student Performance new.csv')
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Unnamed: 0 1000 non-null int64
1 race/ethnicity 1000 non-null object
2 parental level of education 1000 non-null object
3 lunch 1000 non-null object
4 test preparation course 1000 non-null object
5 math percentage 1000 non-null float64
6 reading score percentage 1000 non-null float64
7 writing score percentage 1000 non-null float64
8 sex 1000 non-null object
dtypes: float64(3), int64(1), object(5)
memory usage: 70.4+ KB
本数据集共包含1000条数据,无数据缺失,数据类型包括整数,浮点数与对象类型
data.sample(n=5) # 随机抽取数据查看
Unnamed: 0 | race/ethnicity | parental level of education | lunch | test preparation course | math percentage | reading score percentage | writing score percentage | sex | |
113 | 113 | group D | some college | standard | none | 0.51 | 0.58 | 0.54 | F |
342 | 342 | group B | high school | standard | completed | 0.69 | 0.76 | 0.74 | F |
475 | 475 | group D | bachelor's degree | standard | completed | 0.71 | 0.76 | 0.83 | F |
181 | 181 | group C | some college | free/reduced | none | 0.46 | 0.64 | 0.66 | F |
41 | 41 | group C | associate's degree | standard | none | 0.58 | 0.73 | 0.68 | F |
# 数据Unnamed列为学生编号,我们将其舍弃
data = data.drop(columns=['Unnamed: 0'], axis=1)
对于部分标签,存在多个变量, 我们需要对其进一步观察
labels = ['race/ethnicity', 'parental level of education', 'lunch', 'test preparation course']
for label in labels:
print(f'标签{label}情况:')
print(f'共有{data[label].nunique()}个变量,分别为')
print(data[label].unique())
print('*'*20)
标签race/ethnicity情况:
共有5个变量,分别为
['group B' 'group C' 'group A' 'group D' 'group E']
********************
标签parental level of education情况:
共有6个变量,分别为
["bachelor's degree" 'some college' "master's degree" "associate's degree"
'high school' 'some high school']
********************
标签lunch情况:
共有2个变量,分别为
['standard' 'free/reduced']
********************
标签test preparation course情况:
共有2个变量,分别为
['none' 'completed']
********************
对于分数标签,我们增加一列平均分(average score)
average_score = data[['math percentage', 'reading score percentage', 'writing score percentage']].mean(axis=1)
data.insert(7, 'average score', np.round(average_score, 2))
在此基础上,我们对average_score进行分箱,以0-59,60-69,70-79,80-89,90-100为分隔,将分数分为对应的F, D, C, B, A。
performance_level = pd.cut(data['average score'], bins=[0, 0.59, 0.69, 0.79, 0.89, 100],
labels=['F', 'D', 'C', 'B', 'A'] )
data.insert(8, 'performance level', performance_level)
data.groupby('sex')['sex'].count()
sex
F 518
M 482
Name: sex, dtype: int64
本数据集男女比例为:48.2%比51.8%。我们认为其基本符合男女比例在美国的分布,为了进一步进行验证,我们可以引入卡方拟合度检验:
- H0:在选取数据集时,男性与女性被选中的概率皆为50%
- H0:上述概率不成立
expected_number = [500, 500] # 理论上1000个样本中男女人数
observed_number = [482, 518] # 实际观察到的男女人数
result = stats.chisquare(f_obs=observed_number, f_exp=expected_number)
print(f'卡方拟合度检验的P值为:{result[1]}')
卡方拟合度检验的P值为:0.25494516431731784
据此,我们可以认为,如果从男女比例出发,这份数据为随机抽取。
至此,数据整理结束,我们再次查看此时的数据情况。
data.sample(n=5)
race/ethnicity | parental level of education | lunch | test preparation course | math percentage | reading score percentage | writing score percentage | average score | performance level | sex | |
801 | group C | some high school | standard | completed | 0.76 | 0.80 | 0.73 | 0.76 | C | M |
200 | group C | associate's degree | standard | completed | 0.67 | 0.84 | 0.86 | 0.79 | C | F |
417 | group C | associate's degree | standard | none | 0.74 | 0.73 | 0.67 | 0.71 | C | M |
629 | group C | some high school | standard | completed | 0.44 | 0.51 | 0.55 | 0.50 | F | F |
944 | group B | high school | standard | none | 0.58 | 0.68 | 0.61 | 0.62 | D | F |
3. 学生成绩分析
3.1 学生整体成绩分布
fig = plt.figure(figsize=(5,10))
sns.set_style('darkgrid')
subjects = ['math percentage', 'reading score percentage', 'writing score percentage', 'average score']
color = ['green', 'blue', 'orange', 'purple']
column = 1
for subject in subjects:
plt.subplot(len(subjects), 1, column)
sns.kdeplot(data=data, x=subject, color=color[column - 1])
column = column + 1
plt.tight_layout()
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zWSG3rHk-1639906825714)(output_26_0.png)]
整体来看,各学科成绩与平均成绩都符合正态分布,我们以样本均值加减两个标准差,可以得到约95%的学生成绩分区间:
lower_bound = data['average score'].mean() - data['average score'].std()*2
upper_bound = data['average score'].mean() + data['average score'].std()*2
print(f'95%的学生成绩分布下限:{lower_bound}')
print(f'95%的学生成绩分布上限:{upper_bound}')
95%的学生成绩分布下限:0.3924529214957264
95%的学生成绩分布上限:0.9627870785042743
即约有95%的学生成绩分布在0.39分至0.96分之间。
3.2 不同学科成绩间的关联度以及不同学生人群擅长科目
我们数据集中共拥有三门学科,分别为读写与数学。我们可以分别将其看做**“文科”与“理科”**,并分别查看不同学科成绩之间的关联度。
data[subjects].corr()
math percentage | reading score percentage | writing score percentage | average score | |
math percentage | 1.000000 | 0.817580 | 0.802642 | 0.918442 |
reading score percentage | 0.817580 | 1.000000 | 0.954598 | 0.970143 |
writing score percentage | 0.802642 | 0.954598 | 1.000000 | 0.965643 |
average score | 0.918442 | 0.970143 | 0.965643 | 1.000000 |
fig = plt.figure()
plt.subplot()
sns.heatmap(data[subjects].corr(), annot=True)
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kWpxCHDy-1639906825715)(output_33_0.png)]
从上面的表与图中,我们可以看出,“文科”学科成绩之间的相关程度,要高于“文科”与“理科”学科成绩之间的相关程度。而且考虑到本数据集中“文科”的科目要多于“理科”的科目,“文科”成绩与平均成绩的相关程度更高。
一般意义而言,社会认为上男生更擅长理科,而女生更擅长文科。我们将使用统计学验证这一看法是否适用于本数据集。
我们引入卡方独立性检验,判断性别与学科掌握程度方面是否是独立不相关的。
- H0:数学成绩与性别无关系。
- H1: 数学成绩与性别有关系。
# 将数学成绩进行分箱,分箱方式与前述对平均成绩的分箱方式相关
math_grading = pd.cut(data['math percentage'], bins=[0, 0.59, 0.69, 0.79, 0.89, 100],
labels=['F', 'D', 'C', 'B', 'A'] )
crosstab = pd.crosstab(math_grading, data['sex'])
# 引入卡方独立性检验
result = stats.chi2_contingency(crosstab)
print(f'p值为:{result[1]}')
p值为:3.052111718576621e-05
**原假设不成立,即学生的数学成绩与性别并不独立。**在此基础上,我们进一步查看不同性别下,学生在数学科目的表现。
data.groupby('sex')[['math percentage']].agg([np.mean, np.median])
math percentage | ||
mean | median | |
sex | ||
F | 0.636332 | 0.65 |
M | 0.687282 | 0.69 |
fig, ax = plt.subplots(1,2, figsize=(10, 5))
sns.boxplot(data=data, y='math percentage', x='sex', palette='summer', ax=ax[0])
sns.histplot(data=data, x='math percentage', hue='sex', fill=True, ax=ax[1], stat='probability')
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qV7fOTYc-1639906825716)(output_41_0.png)]
在数学科目的平均分以及中位数两大统计指标上,我们可以看出,男性在该科目的确占有一定优势。两者的数学成绩分布大致都符合正态分布,但男性在样本方差明显更小,且在高分部分,男性出现的概率更大——男性在数学上的整体表现,要优于女性。
下面我们继续观察男女性在文科科目上的表现,在这里,我们选取writing score percentage标签,做为研究对象。
data.groupby('sex')[['writing score percentage']].agg([np.mean, np.median])
writing score percentage | ||
mean | median | |
sex | ||
F | 0.724672 | 0.74 |
M | 0.633112 | 0.64 |
fig = px.histogram(
data, x='writing score percentage',
marginal='box', opacity=0.6,
color='sex',
histnorm='probability',
title='男生与女生在文科上的表现',
template='plotly_white'
)
fig.update_layout(barmode='overlay', width=800)
fig.show()
从所估计的概率密度图上看,女生在writing score percentage的高分领域,女性出现的概率要远高于男生,而在低分领域则正好相反。综合来看男生,男生的确更擅长理科,而女生则相反。
3.3 高分学生人群画像
3.3.1 父母学历
下面我们分析高分(均分高于90分)考生的画像,首先我们探究高分与父母受教育程度间的关系。
honor_students = data.loc[data['average score']>=0.9] # 选取均分高于0.9的学生,组成子数据集honor_students
honor_count = honor_students['parental level of education'].value_counts().sort_index()
total_count = data['parental level of education'].value_counts().sort_index()
fig = make_subplots(rows=1, cols=2, specs=[[dict(type='domain'),{'type':'domain'}]])
fig.add_pie(
values=total_count.values, hole=0.4, labels=total_count.index,
row=1, col=1, name='整体学生父母受教育程度'
)
fig.add_pie(
values=honor_count.values, hole=0.4, labels=honor_count.index,
row=1, col=2, name='高分学生父母受教育程度'
)
fig.update_layout(
title_text="学生父母受教育程度",
annotations=[dict(text='整体父母', x=0.15, y=0.5, font_size=20, showarrow=False),
dict(text='高分父母', x=0.85, y=0.5, font_size=20, showarrow=False)],
width=900
)
fig.show()
从上图所示,我们发现,高分考生父母的教育程度,要高于整体考生父母的教育程度,其中高分考生父母拥有副学士、学士、硕士的比例,相较于整体考生,分别从22.9%, 11.8%, 5.9%上升至31.5%, 24.1%, 11.1%。
整体来看,高分学生的父母,约有90%都曾接受过大学教育。
不仅仅是高分学生父母的所受教育程序较高,实际上,在本数据集中,所有学生的平均分,皆与父母的教育程度正相关。下表给出了不同教育程度的父母,以及对应考生群体平均分。其中,其中学历为硕士与高中的父母,子女的平均分分别为73分及63分。
data.groupby('parental level of education')['average score'].mean().sort_values()
parental level of education
high school 0.631224
some high school 0.650726
some college 0.684469
associate's degree 0.695586
bachelor's degree 0.719492
master's degree 0.735763
Name: average score, dtype: float64
parents = data['parental level of education'].unique()
sample_data = []
for parent in parents:
member = data[data['parental level of education'] == parent].sample(n=30, random_state=1)
sample_data.append(member)
parent_data = pd.concat(sample_data, axis=0)
fig = px.scatter(
parent_data, x='math percentage', y='writing score percentage',
color='parental level of education',
size='average score',
title='父母教育程度对学生成绩影响',
template='plotly_dark'
)
fig.show()
上述气泡图抽取各个教育水平的父母各30名,并观察其子女成绩表现。不难看出,学生的成绩表现与父母受教育程度成正相关关系,即父母受教育程度越高,子女的学业表现越好。
为了进一步在统计学上证明这一点,我们引入卡方独立性检验:
- H0: 学生成绩表现与父母受教育程序无关
- H1: 学生成绩表现与父母受程序程度相关
crosstab = pd.crosstab(data['parental level of education'], data['performance level'])
result = stats.chi2_contingency(crosstab)
if result[1] < 0.05:
print(f'p值为{result[1]}, 原假设不成立!')
else:
print(f'p值为{result[1]}, 原假设成立!')
p值为0.00014895457933147155, 原假设不成立!
结论:对于高分段的学生,其父母所受的教育程度要更高。
3.3.2 学生性别
honor_students.groupby('sex')['sex'].count()
sex
F 40
M 14
Name: sex, dtype: int64
从上图表格中,我们发现高分学生当中,女性的数量要明显多于男性数量。但考虑到在三门科目当中,写作与阅读都偏向于女生所擅长的文科类科目,这对于擅长数学的男生而言,显然是不利的,我们考虑选取一门文科与一门理科,取其均值,查看在这一情况下,高分学生在男女中的分布。
condition = ((data['math percentage']+data['writing score percentage'])/2 >= 0.9)
data[condition].groupby('sex')['sex'].count()
sex
F 35
M 18
Name: sex, dtype: int64
此时,女生仍然相较于男生,仍然拥有更大的优势!
honor_index = honor_students.groupby('sex')['sex'].count().index
honor_value = honor_students.groupby('sex')['sex'].count().values
math_writing_index = data[condition].groupby('sex')['sex'].count().index
math_writing_value = data[condition].groupby('sex')['sex'].count().values
fig = go.Figure(data=[
go.Bar(x=honor_index, y=honor_value, name='三科均分高于90分', text=honor_value,),
go.Bar(x=math_writing_index, y=math_writing_value, name='数学写作均分高于90分', text=math_writing_value)
])
fig.update_layout(width=500, height=400)
fig.show()
从我们得到的结果来看,无论是哪种情况,女生高分情况都要远胜于男生,基于此,我们做出一个假设:尽管女生在数学方面整体不如男性,但在高分段,男女生在数学的表现基本一致。
data[data['math percentage']>0.9].groupby('sex')['math percentage'].mean()
sex
F 0.952857
M 0.948621
Name: math percentage, dtype: float64
上表所示为男生与女生在高分段的数学平均成绩。
data[data['math percentage']>0.9].groupby('sex')['math percentage'].std()
sex
F 0.031803
M 0.032373
Name: math percentage, dtype: float64
上表所示为男生与女生在高分段的数学样本方差。
从数学高分段的均值及方差来看,两者都十分接近。为了进一步验证我们的观点,我们引入t 检验,判断两者的均值是否相同。
- H0: 在高分段,男生与女生在数学方面的均值一致
- H1: 在高分段,男生与女生在数学方面的均值不一致
honored_male_math = data.loc[(data['math percentage'] >= 0.9) & (data['sex'] == 'M'),'math percentage']
honored_female_math = data.loc[(data['math percentage'] >= 0.9) & (data['sex'] == 'F'),'math percentage']
result = ttest_ind(honored_male_math.values, honored_female_math.values, equal_var=True)
if result[1]>0.95:
print(f'两者的均值一致,P值为{result[1]}')
else:
print(f'两者的均值不一致,P值为{result[1]}')
两者的均值一致,P值为1.0
从P值所反馈结果来看,女生尽管整体在数学方面不如男生,但在高分段,女生与男生的表,并无明显区别。
结论:高分段,女生比男生要更占优势,而男生的优势科目在高分段,优势并不明显。