2.1 数据类型

数据挖掘研究常常是为了适应新的应用领域和新的数据类型的需要而展开的。

属性与度量

属性是对象的性质或特性,它因对象而异,或随时间变化。为了用一种明确定义的方式做到这一点,我们需要测量标度。

数据集的类型

数据集的一般特性:维度、稀疏性和分辨率。

2.2 数据质量

通常必须解决的数据质量问题包括存在噪声和离群点,数据遗漏,不一致或重复,数据有偏差,或者不能代表它应该描述的现象或总体情况。

数据挖掘着眼于两个方面:数据质量问题的检测和纠正——数据清洗;使用可以容忍低质量数据的算法。

测量和数据收集问题

测量误差和数据收集错误。测量误差指测量过程中导致的问题。数据收集错误指遗漏数据对象或属性值,或不当地包含了其他数据对象等错误。

噪声和伪像。噪声是测量误差的随机部分,通常用于包含时间或空间分量的数据。伪像是更确定性现象带来的数据错误,一种确定性的失真。

精度、偏倚和准确率。精度(precision)是同一个量的重复测量值之间的接近程度。偏倚(bias)测量值与被测量之间的系统的变差。准确率(accuracy)被测量的测量值和实际值之间的接近程度。

离群点。

遗漏值。处理策略包括删除数据对象或属性、估计遗漏值、在分析时忽略遗漏值。

不一致的值。

重复数据。通常用去重复来处理。

关于应用的问题

时效性、相关性、关于数据的专业领域知识

2.3 数据预处理

聚集

抽样

抽样方法:简单随机抽样、无放回抽样、有放回抽样、分层抽样、渐进抽样。

维归约

维归约通常用于这样的技术:通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。通过选择旧属性的子集得到新属性,这种维归约称为特征子集选择或特征选择。

维灾难。

维归约的线性代数技术。主成分分析(PCA)、奇异值分解(SVD)。

特征子集选择

有三种标准的特征选择方法:嵌入(算法本身决定使用哪些属性和忽略哪些属性)、过滤(使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择)和包装(将目标数据挖掘算法作为黑盒,但通常不枚举所有可能的子集来找出最佳属性子集)。构造决策树分类器的算法通常以嵌入方法运行。

特征子集选择体系结构。

特征加权。

特征创建

特征创建:特征提取、映射数据到新的空间、特征构造。

离散化和二元化

离散化和二元化。与特征选择一样,最佳的离散化和二元化方法是“对于用来分析数据的数据挖掘算法,产生最好结果”的方法。直接使用这种判别标准通常是不实际的,因此离散化(监督离散化、非监督离散化)和二元化一般要满足这样一种判别标准,它与所考虑的数据挖掘任务的性能好坏直接相关。

变量变换

变量变换。两种重要的变量变换类型:简单函数变换和规范化/标准化。

2.4 相似性和相异性度量

基础

简单属性之间的相似度和相异度

数据对象之间的相异度

数据对象之间的相似度

邻近性度量的例子

邻近度量计算问题

选取正确的邻近性度量