目录
数据集成与变换
简单变换
简单变换的作用:
box-cox变换
时间非平稳序列-时间平稳序列(一阶差分)
数据规范化
数据白化
连续属性离散化
属性构造
算法的学习方法
主成分分析
数值规约
数据集成与变换
简单变换
对原始数据进行数学函数变换,如:平方、开方、取对数、差分运算等
简单变换的作用:
数据范围的拉伸与压缩(图像对比度提升、年收入)
非正态-正态分布(开发,取对数,
box-cox变换
它包括了平方变换(
),平方根变换(
),对数变换(
)和倒数变换(
)等常用变换。所以Box-Cox变换是一族变换。Box-Cox变换中参数的估计有两种方法:(1)最大似然估计;(2)Bayes方法。通过求解值,就可以确定具体采用哪种变换形式。关于求解值的详细公式推导,大家可以自行查阅相关资料。
用于连续的响应变量不满足正态分布的情况。比如在使用线性回归的时候,由于残差 \epsilon 不符合正态分布而不满足建模的条件,这时候要对响应变量Y进行变换,把数据变成正态的。)
时间非平稳序列-时间平稳序列(一阶差分)
分析到白噪声就不用分析了。
数据规范化
1、最大——最小规范化 :X *=(x-min)/(max-min)
映射到 [0,1] 之间,若数据集中且某个数值太大,则规范化后各值都接近0,且相差不大
2、零——均值规范化(Z-score标准化):X*=(x-mean)/ sigma
目前用的最多的数据标准化方法
3、小数定标规范化:X*=x /(10^k)
通过移动属性值的小数位数,映射到 [-1,1] 之间,移动的小数位数取决于属性值绝对值的最大值
数据白化
PAC白化
连续属性离散化
一些数据挖掘算法要求数据是分类属性形式,就需要将连续属性转变为分类属性
1、等宽法:类似于制作频率分布表,将属性的值域划分为相等宽度的区间,区间的个数由数据本身特点决定
2、等频法:将相同数量的记录放到每个区间
3、聚类:一维聚类的两个步骤,首先用聚类算法如(K-means算法)进行聚类,然后处理聚类得到的簇。
属性构造
二级指标,体重指数(BMI)=体重/身高的平方,(线损率=供入电量-供出电量)/供入电量
算法的学习方法
1.思想
2.过程步骤(弱)
3.适用场景
主成分分析
原始数据相关性较高,寻找较少的新变量来代替原先众多的变量。新变量(坐标系、基底)要求:尽可能地代表原先变量的信息,且彼此互不相关。
step1.原始数据变量m行n列矩阵(m个样本,每个样本n个变量)。
step2.协方差矩阵,协方差反映相关性。
step3.协方差矩阵对角化,求解特征值
step4.求解特征向量并单位化
step5.确定主成分个数,计算各主成分贡献率
贡献率,累积贡献率,一般规则:
,或累积贡献率<85%
新的基底
step6.确定数据在新坐标系下的线性组合
数值规约
抽样,随机抽样,分层抽样,加权抽样