目录
- 数据预处理
- 2、特征工程
- 2.1、特征构建
- 2.2、特征提取
- 2.3、特征选择
- 2.3.1、过滤法
- 2.3.2、嵌入法
- 2.3.3、包装法
- 3、无监督学习
- 3.1、聚类分析
- 3.1.1、聚类分析概述
- 3.1.2、相似性度量
- 3.1.2.1、连续性属性相似性
- 3.1.2.2、二值离散型属性相似性
- 3.1.2.3、多值离散属性相似性
- 3.1.2.4、混合类型属性相似性
数据预处理
数据挖掘课程小结——1)数据预处理
未完待续。。。
2、特征工程
2.1、特征构建
特征构建即从原始数据中把现有特征进行组合,或互相计算,得到新的特征。
方法:组合属性、切分属性
2.2、特征提取
从文字,图像,声音等其他非结构化数据中提取新信息作为特征。
方法:
1)主成分分析 (Principal Component Analysis, PCA)
2)线性判别分析(Linear Discriminant Analysis, LDA)
3)独立成分分析(Independent Component Analysis, ICA)
2.3、特征选择
从所有的特征中,选择出有意义、对模型有帮助的特征子集,达到降维的效果,以避免将所有特征都导入模型去训练的情况。
2.3.1、过滤法
根据各种统计检验中的分数以及相关性的各项指标来选择特征。包括方差过滤和相关性过滤(卡方,F检验和互信息)。
- 方差过滤:
通过特征本身的方差来筛选特征的类。设定阈值,舍弃所有方差小于阈值的特征。 - 相关性过滤:
希望选出与标签相关且有意义的特征,这样的特征能够为提供大量信息。如果特征与标签无关,那只会白白浪费计算内存,可能还会给模型带来噪音。
1)卡方过滤:卡方过滤是专门针对离散型标签(即分类问题)的相关性过滤。计算每个非负特征和标签之间的卡方统计量,并依照卡方统计量由高到低为特征排名。选出前K个分数最高的特征的类,可以借此除去最可能独立于标签,与分类目标无关的特征。
2)F检验:又称ANOVA,方差齐性检验,是用来捕捉每个特征与标签之间的线性关系的过滤方法。
3)互信息法:互信息法是用来捕捉每个特征与标签之间的任意关系(包括线性和非线性关系)的过滤方法。
2.3.2、嵌入法
嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。这些权值系数代表了特征对于模型的某种贡献或某种重要性,可以列出各个特征对树的建立的贡献,就可以基于这种贡献的评估,找出对模型建立最有用的特征。
优点: 相比于过滤法,嵌入法的结果会更加精确到模型的效用本身,对于提高模型效力有更好的效果。并且,由于考虑特征对模型的贡献,因此无关的特征(需要相关性过滤的特征)和无区分度的特征(需要方差过滤的特征)都会因为缺乏对模型的贡献而被删除掉。
2.3.3、包装法
包装法也是一个特征选择和算法训练同时进行的方法,与嵌入法十分相似,它也是依赖于算法自身的选择。但不同的是,通常使用一个目标函数作为黑盒来帮助选取特征,而不是自己输入某个评估指标或统计量的阈值。包装法在初始特征集上训练评估器,获得每个特征的重要性;然后从当前的一组特征中修剪最不重要的特征。在修剪的集合上递归地重复该过程,直到最终到达所需数量的要选择的特征。最典型的目标函数是递归特征消除法(Recursive feature elimination, 简写为RFE)。
缺点: 包装法要使用特征子集进行多次训练,因此它所需要的计算成本是最高的,所以也不适用于太大型的数据。
优点: 包装法的效果是所有特征选择方法中最利于提升模型表现的,它可以使用很少的特征达到很优秀的效果。
3、无监督学习
3.1、聚类分析
3.1.1、聚类分析概述
聚类分析是根据样本数据之间的某种相似关系将数据集中的样本划分为多个通常不相交的子集的过程,每一个子集称为一个簇,每个簇对应一个潜在的类别。
按照数据之间的相似性,对数据集进行分组或分簇,每个簇中任意两个数据样本之间具有较高的相似度,而不同簇的数据样本之间具有较低的相似度。
- 聚类分析的目标:
簇内差距最小化,即一个簇内的数据尽量相似(high intra-class similarity)
簇间差距最大化,即不同簇的数据尽量不相似(low inter-class similarity)
所有个体或样本所属的类是未知的,类的个数一般也是未知的。
3.1.2、相似性度量
3.1.2.1、连续性属性相似性
距离作为对象之间相似度和不相似度量的最主要的方法。距离越大,相似性越小。
- 常用距离度量方法:
闵可夫斯基距离:
1)时,为曼哈顿距离:
2)时,为欧氏距离: - 类间距离计算相似性方法:
设有两个类和,它们分别有和个元素,中心分别为和。设元素,,这两个元素间的距离通常通过类间距离来刻画,记为。
1)最短距离法
2)最长距离法
3)中心法
4)类平均法
3.1.2.2、二值离散型属性相似性
- 对称的二值离散型属性
属性的两个状态是同等价值的,并有相同的权重,也就是两个取值0或1没有优先权。例如,“女性”和“男性”。
简单匹配系数SMC: - 不对称的二值离散型属性
属性两个状态的输出不是同样重要。
JACCARD系数:
3.1.2.3、多值离散属性相似性
其中 为数据集属性个数, 为 和
3.1.2.4、混合类型属性相似性
1)属性按照类型分组,每个新数据集只包含一种类型的属性,之后单独聚类分析;
2)混合类型属性一起处理,一次聚类分析。
- :
表示第 个属性对样本 和 之间距离计算的影响:
当 或 不存在时,;
当第 个属性为不对称二值离散属性,且 时,;
否则, - :
表示第 个属性样本 和 之间的距离:
当第 个属性为连续型时:;
当第 个属性为二值或多值离散型时: