2.数据
本章概要:
数据类型:定量或者定性,除此外某些数据可能还具备自身的属性(时间属性,彼此之间有明显的联系)。数据挖掘通常是针对特定的领域和特定的数据类型展开的。————识别数据
数据质量:数据中的噪声和离群点,数据遗漏,不一致或重复,偏差或不能地表总体。————数据清洗
数据预处理:预处理提高数据质量,转换成适合挖掘的形式。(连续转换成离散,维度降低)
数据的联系:根据相似度或者距离分析(聚类,分类)
2.1 数据类型
非对称的二元属性:这种数据的大部分值为0,因此关注非零值将更有意义。
数据集的类型:对于数据集而言有三个一般的特性(1.维度 2.稀疏性【少量的非零值】 3.分辨率【一天的天气变化和一小时的天气变化】)
记录的数据:事物数据或购物篮数据,数据矩阵,
2.2 数据质量
离群点:不同于其他大部分数据对象的特征的数据对象(异常检测)
遗漏值(缺失值):1.直接删除数据对象或者属性 2.估计遗漏值(邻近的属性值或者属性的平均值进行平滑) 3.忽略遗漏值
不一致值:如身高为负,邮政和地名不匹配等。
重复数据:
2.3 数据的预处理
聚集,抽样,维归纳,特征子集选择,特征创建,离散化和二元化,变量变化
维归纳:通常有两种技术完成对维的归纳:1,创建新的属性,将一些旧的属性合并在一起降低数据集的维度。2,选择旧属性的子集来选择特征。
PCA(主成分分析 ,Principal Component Analysis):对于里阿奴属性的线性代数技术,找出新的属性,
SVD(奇异值分解,Singular Value Decomposition):一种线性代数技术,与PCA有关,也用于降维。