数据探索+ 数据预处理 

数据探索:
    1.统计量分析 :
        1.集中趋势的度量:
            1.均值、中位数、众数
        2.离散趋势的度量: 
            极值()
            极差
            标准差、方差
            四分位数间距 
    2.相关性分析:
        通过散点图  获取 相关系数

数据预处理:
    补充: 
        数据透视表 也可以对数据 进行分析 【聚合统计 】
        group by  +agg 
案例: 
    客户价值分析(用户画像  =》 类似 )

1.基本理论: 
    1.RFM模型
    2.聚类分析 (机器学习里面的算法 =》 结果 标签)
    3.RFM聚类分析    

1.RFM模型 =》 获取 RFM
    根据用户属性 进行打标签【进行分类 】 =》 
        超级用户
        普通用户
        黑户

    2.RFM: 【用户的属性】
        R: 最近一次消费 距现在的时长 【时差】 recency
        F:消费频率 frequency
        M:消费金额 mon

    eg:
        客户a :
            R:180  F:1次/月 M:100块/月
        客户b :
            R:3   F:10次/月 M:1000块/月
        .RFM模型=> 
            b 超级用户 
            a 流式用户
        标准: 
            1.RFM 高 =》 【超级用户 、 重要价值用户】
                【R 表示最近消费时间很近 R值很小】
            2.R低 FM高= 》【保持客户】
            3.RM高 F低 =》 【发展客户】
            4.RF低 M高 =》 【挽留客户】

2.聚类分析【RFM 结果数据】
    一个可以分类的工具 
    2.聚类分析方法:
        1.层次聚类法
        2.K-均值法(Kmeans)

3.RFM聚类分析    
    1.RFM 核心指标 进行 聚类分析 
    2.Kmeans =》 用户 进行分类  =》 4个类别
    3.4个类别 基于 RFM 对用户进行标注【对用户进行打标签】 

RFM聚类分析 好处?
    1.提供决策支持 

数理统计:
    1.描述统计
    2.推断统计 

1.描述统计
    1.什么是描述统计?
        描述统计 从数据中提取 变量的主要信息

    2.从数据中提取 变量的主要信息 =》 【指标】 统计量
    统计量:
        1.频率与频数 
        2.集中趋势分析:
            均值、中位数、众数、分位数
        3.离散程度分析:
            极差、方差、标准差
        4.分布形状:
            偏度、峰度
    3.提取 变量:
        1.数值变量 【就是一个table 中的 column  是数值类型】
        2.类别变量 【就是一个table 中的 column  是非数值类型 string 】 

1.频率与频数
    1.适用场景 =》类别变量
    2.频数:就是 每个不同的取值出现的次数
    3.频率:每个不同的取值出现的次数 与总次数的比值 用%表示

    意义:
        类别变量中,每个取值出现的次数
    
    eg:
        A班级 及格 30人 , B班级及格 35人 能说明()
            1.A班级 成绩更好
            2.B班级 成绩更好
            3.成绩差不多
            4.无法确定哪个班级成绩好
        
        分析:
            1.类别变量  =>  及格
            2. 频数 =》及格人数 

1.集中趋势分析:
            均值、中位数、众数、分位数

均值: 一组数据的总和 除以 数据的个数 
    
    均值 = 和 / 个数 

中位数:一组数据的 按照 升序进行排列 最中间的位置 就是 中位数 

众数: 一组数据 出现的次数最多的值

注意:
    1.数值变量: 
        均值、中位数   表示一组数据 的 集中程度
    2.类别变量:
        众数 集中程度
    
    3.分布:  
        正太分布:
        偏态分布:    
            左偏分布: 均值在 最左边 
            右偏分布:均值在 最右边 
    4.影响:
        1.均值 =》 受 极端值 影响 、
        2.中位数 众数  不受极端值影响 【稳定】
        3.众数 一组数据 中 可能不是唯一的 【单拿出来 是不行的】

        问: 
            国家城市统计居民收入水平 , 使用那个指标衡量 更合适 ?
                1.均值
                2.中位数
                3.中位数或者众数 
                4.都可以 
        
        意义: 
            衡量数据综合水平 

            思考: 
                缺失值 填充 如何处理?
                    1.数据  =》 0  
                    2. 数据 去掉 
                    3. 补充 =》 中位数

分位数:
    通过 (n-1 ) 分位  划分 n个区间
    每个区间数据的个数是相等的 (近似相等)

    意义: 
        利用分位数 +  极值  可以判断 数据的分布状态

集中趋势分析:
    弊端 :
         5 5 5 5        =》  5
         0 -5 20 5         =》 5
         -100 100 120 -100 =》5

离散程度分析:
    极差 、方差 、标准差 
极差:一组数据中 ,最大值 - 最小值 
方差: 一组数据中  每个元素 与 均值的偏离 大小
标准差:就是方差的开方

意义: 
    方差/标准差:
        1.数据的分散性 
            越大  数据越分散
            越小  数据越集中
        2.数据的波动性
            越大  波动越大
            越小   波动越小

分布形状:
    偏度、峰度 

1.偏度:
    倾斜程度的度量 
    eg:    
        数据 -》 正态分布 偏度就是 0 
        数据 -》 左偏分布 偏度就是 小于0  
        数据 -》 右偏分布 偏度就是  大于0  

2.峰度:
    描述 数据分布 陡缓的程度 
    1.标准 正态分布 峰度 0 
    2.如果 峰度 > 0 :
        数据在分布上 数据比 标准 正态分布 密集  =》 方差比较 小 
    2.如果 峰度 < 0 :
    数据在分布上 数据比 标准 正态分布 分散  =》 方差比较 大

    意义: 
        1.  =》 数据的分布特征 
        2. 数据正太校验