数据探索+ 数据预处理
数据探索:
1.统计量分析 :
1.集中趋势的度量:
1.均值、中位数、众数
2.离散趋势的度量:
极值()
极差
标准差、方差
四分位数间距
2.相关性分析:
通过散点图 获取 相关系数
数据预处理:
补充:
数据透视表 也可以对数据 进行分析 【聚合统计 】
group by +agg
案例:
客户价值分析(用户画像 =》 类似 )
1.基本理论:
1.RFM模型
2.聚类分析 (机器学习里面的算法 =》 结果 标签)
3.RFM聚类分析
1.RFM模型 =》 获取 RFM
根据用户属性 进行打标签【进行分类 】 =》
超级用户
普通用户
黑户
2.RFM: 【用户的属性】
R: 最近一次消费 距现在的时长 【时差】 recency
F:消费频率 frequency
M:消费金额 mon
eg:
客户a :
R:180 F:1次/月 M:100块/月
客户b :
R:3 F:10次/月 M:1000块/月
.RFM模型=>
b 超级用户
a 流式用户
标准:
1.RFM 高 =》 【超级用户 、 重要价值用户】
【R 表示最近消费时间很近 R值很小】
2.R低 FM高= 》【保持客户】
3.RM高 F低 =》 【发展客户】
4.RF低 M高 =》 【挽留客户】
2.聚类分析【RFM 结果数据】
一个可以分类的工具
2.聚类分析方法:
1.层次聚类法
2.K-均值法(Kmeans)
3.RFM聚类分析
1.RFM 核心指标 进行 聚类分析
2.Kmeans =》 用户 进行分类 =》 4个类别
3.4个类别 基于 RFM 对用户进行标注【对用户进行打标签】
RFM聚类分析 好处?
1.提供决策支持
数理统计:
1.描述统计
2.推断统计
1.描述统计
1.什么是描述统计?
描述统计 从数据中提取 变量的主要信息
2.从数据中提取 变量的主要信息 =》 【指标】 统计量
统计量:
1.频率与频数
2.集中趋势分析:
均值、中位数、众数、分位数
3.离散程度分析:
极差、方差、标准差
4.分布形状:
偏度、峰度
3.提取 变量:
1.数值变量 【就是一个table 中的 column 是数值类型】
2.类别变量 【就是一个table 中的 column 是非数值类型 string 】
1.频率与频数
1.适用场景 =》类别变量
2.频数:就是 每个不同的取值出现的次数
3.频率:每个不同的取值出现的次数 与总次数的比值 用%表示
意义:
类别变量中,每个取值出现的次数
eg:
A班级 及格 30人 , B班级及格 35人 能说明()
1.A班级 成绩更好
2.B班级 成绩更好
3.成绩差不多
4.无法确定哪个班级成绩好
分析:
1.类别变量 => 及格
2. 频数 =》及格人数
1.集中趋势分析:
均值、中位数、众数、分位数
均值: 一组数据的总和 除以 数据的个数
均值 = 和 / 个数
中位数:一组数据的 按照 升序进行排列 最中间的位置 就是 中位数
众数: 一组数据 出现的次数最多的值
注意:
1.数值变量:
均值、中位数 表示一组数据 的 集中程度
2.类别变量:
众数 集中程度
3.分布:
正太分布:
偏态分布:
左偏分布: 均值在 最左边
右偏分布:均值在 最右边
4.影响:
1.均值 =》 受 极端值 影响 、
2.中位数 众数 不受极端值影响 【稳定】
3.众数 一组数据 中 可能不是唯一的 【单拿出来 是不行的】
问:
国家城市统计居民收入水平 , 使用那个指标衡量 更合适 ?
1.均值
2.中位数
3.中位数或者众数
4.都可以
意义:
衡量数据综合水平
思考:
缺失值 填充 如何处理?
1.数据 =》 0
2. 数据 去掉
3. 补充 =》 中位数
分位数:
通过 (n-1 ) 分位 划分 n个区间
每个区间数据的个数是相等的 (近似相等)
意义:
利用分位数 + 极值 可以判断 数据的分布状态
集中趋势分析:
弊端 :
5 5 5 5 =》 5
0 -5 20 5 =》 5
-100 100 120 -100 =》5
离散程度分析:
极差 、方差 、标准差
极差:一组数据中 ,最大值 - 最小值
方差: 一组数据中 每个元素 与 均值的偏离 大小
标准差:就是方差的开方
意义:
方差/标准差:
1.数据的分散性
越大 数据越分散
越小 数据越集中
2.数据的波动性
越大 波动越大
越小 波动越小
分布形状:
偏度、峰度
1.偏度:
倾斜程度的度量
eg:
数据 -》 正态分布 偏度就是 0
数据 -》 左偏分布 偏度就是 小于0
数据 -》 右偏分布 偏度就是 大于0
2.峰度:
描述 数据分布 陡缓的程度
1.标准 正态分布 峰度 0
2.如果 峰度 > 0 :
数据在分布上 数据比 标准 正态分布 密集 =》 方差比较 小
2.如果 峰度 < 0 :
数据在分布上 数据比 标准 正态分布 分散 =》 方差比较 大
意义:
1. =》 数据的分布特征
2. 数据正太校验