目录

数据集成与变换

简单变换

简单变换的作用:

box-cox变换

时间非平稳序列-时间平稳序列(一阶差分)

数据规范化

数据白化

连续属性离散化

属性构造

算法的学习方法

主成分分析

数值规约


数据集成与变换

简单变换

对原始数据进行数学函数变换,如:平方、开方、取对数、差分运算等

简单变换的作用:

数据范围的拉伸与压缩(图像对比度提升、年收入)

非正态-正态分布(开发,取对数,

box-cox变换

数据挖掘政策是什么_数据

它包括了平方变换(

数据挖掘政策是什么_数据_02


),平方根变换(

数据挖掘政策是什么_数据挖掘政策是什么_03


),对数变换(

数据挖掘政策是什么_python_04

)和倒数变换(

数据挖掘政策是什么_big data_05


)等常用变换。所以Box-Cox变换是一族变换。Box-Cox变换中参数的估计有两种方法:(1)最大似然估计;(2)Bayes方法。通过求解值,就可以确定具体采用哪种变换形式。关于求解值的详细公式推导,大家可以自行查阅相关资料。

 

用于连续的响应变量不满足正态分布的情况。比如在使用线性回归的时候,由于残差 \epsilon 不符合正态分布而不满足建模的条件,这时候要对响应变量Y进行变换,把数据变成正态的。)

时间非平稳序列-时间平稳序列(一阶差分)

        分析到白噪声就不用分析了。

数据规范化

    1、最大——最小规范化 :X *=(x-min)/(max-min)

      映射到 [0,1] 之间,若数据集中且某个数值太大,则规范化后各值都接近0,且相差不大

    2、零——均值规范化(Z-score标准化):X*=(x-mean)/ sigma

      目前用的最多的数据标准化方法

    3、小数定标规范化:X*=x /(10^k)

      通过移动属性值的小数位数,映射到 [-1,1] 之间,移动的小数位数取决于属性值绝对值的最大值

数据白化

PAC白化

连续属性离散化

    一些数据挖掘算法要求数据是分类属性形式,就需要将连续属性转变为分类属性

    1、等宽法:类似于制作频率分布表,将属性的值域划分为相等宽度的区间,区间的个数由数据本身特点决定

    2、等频法:将相同数量的记录放到每个区间

    3、聚类:一维聚类的两个步骤,首先用聚类算法如(K-means算法)进行聚类,然后处理聚类得到的簇。

属性构造

二级指标,体重指数(BMI)=体重/身高的平方,(线损率=供入电量-供出电量)/供入电量

算法的学习方法

1.思想

2.过程步骤(弱)

3.适用场景

主成分分析

原始数据相关性较高,寻找较少的新变量来代替原先众多的变量。新变量(坐标系、基底)要求:尽可能地代表原先变量的信息,且彼此互不相关。

step1.原始数据变量m行n列矩阵(m个样本,每个样本n个变量)。

step2.协方差矩阵,协方差反映相关性。

数据挖掘政策是什么_数据挖掘政策是什么_06

step3.协方差矩阵对角化,求解特征值

数据挖掘政策是什么_数据挖掘政策是什么_07

step4.求解特征向量并单位化

step5.确定主成分个数,计算各主成分贡献率

贡献率,累积贡献率,一般规则:

数据挖掘政策是什么_python_08


,或累积贡献率<85%

新的基底

step6.确定数据在新坐标系下的线性组合

数值规约

抽样,随机抽样,分层抽样,加权抽样