文章目录

  • 数据探索性分析
  • 数据质量分析
  • 缺失值分析
  • 异常值分析
  • 一致性分析
  • 数据特征分析
  • 分布分析
  • 对比分析
  • 统计量分析
  • 周期性分析
  • 贡献度分析
  • 相关性分析
  • python主要数据探索函数
  • 基本统计特征函数
  • 拓展统计特征函数
  • 统计作图函数(matplotlib)


数据探索性分析

数据质量分析

缺失值分析

1、缺失值产生的原因
1)有些暂时无法获取的数据,或者获取代价太大的数据
2)有些是被遗漏的数据

  • 输入时认为不重要,忘记填写,对数据理解错误,一些人为的因素
  • 数据采集设备故障,存储介质故障,传输媒体的故障等非人为丢失

2、缺失值的影响

  • 数据挖掘建模将丢失大量有用信息
  • 挖掘模型所表现的不确定性更加显著
  • 包含空值的数据会使建模过程陷入混乱,导致不可靠的输出

3、缺失值分析

  • 简单的统计分析:得到含有缺失值的属性及个数,和缺失率
  • 从总体上来说:缺失值处理分为三个:
  • 删除
  • 插补
  • 不处理

异常值分析

含义:是检验是否含有录入错误,以及不合常理的数据,异常值是指样本中的个别值,其数值明显偏离其余的观测值,异常值也称离群点
1、作简单统计量分析
可以先对变量做一个描述性统计,进而查看哪些数据是不合理的,最常用的统计量是,最大,最小值,如:客户年龄199岁,则该变量的取值存在异常
箱型图分析

一致性分析

数据的不一致性是指数据的矛盾性,不相容性。
在数据挖掘中,不一致数据主要产生在数据集成的过程中,

数据特征分析

对数据进行质量分析之后,接下来可以通过绘制图表,计算某些特征量等手段进行数据的特征分析

分布分析

揭示数据的分布特征和分布类型,

  • 对于定量数据:欲了解其分布形式的对称性,非对称性,发现某些特大或特小的可疑值
  • 可通过绘制:频率分布表,频率分布直方图,茎叶图
  • 定性分类数据:可用饼图,条形图,显示分布情况

1、定量数据的分布分析
对于定量数据,选择‘组距’和‘组数’是频率分布分析最主要的问题,一般按照以下步骤进行:
1)求极差(最大-最小)
2)决定组距和组数(根据业务取组距,组数 = 极差 / 组距)
3)决定分点
4)列出频率分布表
5)绘制频率分布直方图
遵循的主要原则如下
1)各组之间必须是相互排斥的
2)各组之间必须将所有的数据包含
3)各组的组宽最好都相等

2、定性数据的分布分析
对于定性数据,常常根据数据的分类类型来分组,饼图和条形图

对比分析

两种形式
1、绝对数比较
利用绝对数进行对比

2、相对数比较
对两个有联系的指标对比计算

  • 结构相对数:将同一总体内的部分数值与全部数值进行对比求得比重,用以说明事物的结构,质量,性质的相似度
  • 比例相对数
  • 比较相对数
  • 强度相对数
  • 计划完成相对数
  • 动态相对数:用同一种现象在不同时期的指标数值进行对比,用以说明,数据事物的周期性,发展速度,增长速度等

统计量分析

1、集中趋势度量
平均数、中位数、众数
2、离中趋势度量
极差、标准差、变异系数、四分位间距(上四分位与下四分位之差)
describe

周期性分析

某个变量随着时间变化呈现出的某种周期性变化趋势,

贡献度分析

原理是帕累托法则,就是28原则,同样的投入放在不同的地方产生不同的效益
例如:一个公司80%的收益常常来自20%最畅销的产品,而其他80%的产品只有20%的收益

相关性分析

corr

1、绘制散点图最直观

探索性数据分析概念 探索性数据分析报告_缺失值


2、计算相关系数

1)pearson相关系数

探索性数据分析概念 探索性数据分析报告_探索性数据分析概念_02


2)Spearman相关系数

pearson线性相关系数,要求服从正态分布,不服从正态分布的变量可采用Spearman

python主要数据探索函数

基本统计特征函数

探索性数据分析概念 探索性数据分析报告_数据挖掘_03

拓展统计特征函数

探索性数据分析概念 探索性数据分析报告_数据分析_04

探索性数据分析概念 探索性数据分析报告_数据分析_05

探索性数据分析概念 探索性数据分析报告_数据挖掘_06

统计作图函数(matplotlib)

探索性数据分析概念 探索性数据分析报告_探索性数据分析概念_07


探索性数据分析概念 探索性数据分析报告_缺失值_08