记>数据探索

一些个人觉得有意义的概念:(画重点)

此为python数据分析与挖掘实战第三章笔记部分。

数据质量分析:
脏数据:(数据质量分析的主要涉及内容)

数据质量分析其中数据质量在于其数据特征如何,要提到一个概念脏数据。

脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。包括类型:缺失值、异常值、不一致的值、重复数据及含有特殊符号的值。(不举例介绍,概念不清可以随时百度,就大概有个数。)可以用pandas库及matlbplot库可以将脏数据直观的表现出来,详情见code及image文件。

原文中介绍了关于脏数据各种类型的产生原因及分析及解决方法的提供。

数据特征分析:
①分布分析:

定量关系的分布分析:通过频率分布表、茎叶图等进行直观分析数据的数量多少,可以看出数据的大多数数据样子。(关键在组距和组数的选取,这个视需要数据的实际应用分析决定。)

定性关系的分布分析:饼图、条形图显示出分布情况。(只会有各个分组的比例,不会看到具体数值。)

②对比分析:(书上的话太繁杂,我以为的如下。视具体情况分析应用)

绝对数比较:相同量之间直接比较。

相对数比较:就是两个具有内在联系的两个不同量之间的比较。

③统计量分析:(给一些熟悉的东西换了一些看不懂的专业名词)

集中趋势度量:均值(平均数)、中位数、众数。

离中趋势度量:极差、标准差、变异系数、四分位数间距。

变异系数:标准值相对于均值的离中趋势,就是(标准差\均值)×100%

四分位数间距:将所有数据从小到大分成四等分,从小到大的三个分隔点分别叫做下四分位数,中位数,上四分位数。上下四分位数之差称为四分位数间距。

④周期性分析:

就是周期变化的趋势分析。

⑤贡献度分析:(也称为帕累托分析)

同一个东西在不同部分带来的效益是不同的。

就像饭店,不同的菜盈利自然会不同。

⑥相关性分析:

分析变量之间的相关程度的强弱。

绘制散点图:直观比较变量间的相关性。

相关系数的计算。书上举例为:Pearson相关系数、Spearman秩相关系数和判定系数。

此处只提每种系数适用的数据,不对公式进行搬运。要用的时候去查阅了解。

Pearson相关系数一般用于分析两个连续性变量之间的关系。

Spearson适合:不符合正态分布的变量、分类或等级变量之间。

判定系数:是相关系数的平方。其中corr( )函数可以求相关系数。

corr()函数提供了连续变量的相关系数。(此处函数计算的是Pearson相关系数)

介绍pandas库及matplotlib库相关。

库的相关函数的介绍在代码中有解释,一下子写在一起可能记不住,在应用中了解印象会深一些。