数据集的一般特性
- 维度:数据集中的对象具有的属性数目。常涉及”维灾难“和”维归约“问题。
- 稀疏性:非对称特征数据集,一个对象的大部分属性值都为0。只存储与处理非零值。
- 分辨率 :不同分辨率下数据性质不同。
数据挖掘的任务常假定数据集是记录的汇集,每个记录包含固定的数据字段(属性)集。
记录数据
事务数据:是一种特殊类型的记录数据,其中每个记录(事务)设计一个项的集合。如,一次购物购买的商品的集合构成一个事务。购买的商品是项。
稀疏数据矩阵:稀疏数据矩阵是数据矩阵的一种特殊情况,其中属性的类型相同并且是非对称的,即只有非零值才是重要的。
如文档-词矩阵(document-term matrix),每个词是向量的一个分量(属性),而每个分量的值时对应词在文档中出现的次数。
有序数据
包含:
- 时序数据
- 基因组序列数据
- 温度时间序列数据
- 空间温度数据
数据质量
主要关注的数据质量问题是检测和纠正(或:数据清理)。会涉及到一些术语:
- 测量误差:测量过程导致的问题
- 误差:测量值减去实际值
- 噪声:测量误差的随机部分,通常用于包含时、空的数据,可使用信号或图像处理技术进行降噪。
- 鲁棒算法:即使存在噪声也能产生可接受的结果。
- 伪像:数据确定性 的失真。
- 精度:重复测量之间的封闭性;
- 偏倚:测量与被测量之间的系统变量;
- 准确率:被测量的测量值与实际值之间的接近度;
- 离群点(异常点):具有不同于数据集中其他大部分数据对象的特征的数据对象或相对于该属性的典型值不寻常的属性值。
数据预处理