数据挖掘期末复习提纲

什么是数据挖掘

Opinion1:

数据中的知识发现(KDD)

Opinion2:

是知识发现过程的一个基本步骤:
数据清理>数据集成>数据选择>数据变换>数据挖掘>模式评估>知识表示

广义定义:

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
(数据源包括数据库、数据仓库、Web、其它信息存储库或动态地流入系统的数据)

可以挖掘什么样的数据?

数据库数据、数据仓库数据和事务数据

二元属性的邻近性度量

对于二元属性的列联表:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据

对称的二元相异性:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_02

非对称的二元相异性:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_03

非对称的二元相似性(又称Jaccard系数):

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘zhaohuilv_04

简单匹配系数:
数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_05

数值属性的相异性

闵可夫斯基距离

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_06

当h=1时,该式为曼哈顿距离

当h=2时,该式为欧几里得距离

当h➡∞时,该式为切比雪夫距离

数据预处理

数据预处理的目的:提高数据质量

(数据质量用准确性、完整性、一致性、时效性、可信性和可解释性定义)

数据预处理主要包括:数据清理、数据集成、数据归约和数据变换

数据清理

通过填写缺失值、光滑噪声数据、识别或删除离群点并解决不一致来清理数据

缺失值的处理
  • 忽略元组(缺少类标号时通常这么做)
  • 人工填写缺失值(费时费力,且数据集较大时不可行)
  • 使用一个全局常量填充缺失值(例如用’Unknown’替换所有缺失值,简单但不可靠)
  • 使用属性的中心度量(如均值或中位数)填充缺失值(正常数据可以用均值,倾斜数据中最好使用中位数)
  • 使用与给定元组属同一类的所有样本的属性均值或中位数(看不懂来问我)
  • 使用最可能的值填充缺失值(回归、贝叶斯形式化方法)
分箱

分箱的目的:对数据进行局部光滑

基于等频划分的两种分箱方法

先排序后等分,保证每个箱中包含的值的数量相等

用箱均值光滑

将箱中每一个值替换为该箱中的均值
(用箱中位数光滑同理)

用箱边界光滑

给定箱中的最大和最小值被视为箱边界,将箱中每一个值都替换为最近的箱边界

等宽划分

每个分箱取值范围一样大

数据集成

将不同来源的数据进行集成处理,要注意采取措施避免集成时的冗余:例如代表同一概念的属性在不同的数据库中可能具有不同的名字,导致不一致和冗余

冗余和相关分析

分为标称数据的冗余和相关分析以及数值数据的冗余和相关分析

标称数据:卡方检验

Pearson卡方值公式:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_07


数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘_08数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_09是期望频度

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_10


书上方便理解的例子:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_11

数值数据:相关系数

公式以及解释:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘zhaohuilv_12


相关系数取值在-1到1之间,相关系数大于0,意味着A和B是正相关的,如果该值等于0,则A和B是独立的。

(注意!相关性并不蕴含因果关系!)

数值数据:协方差

协方差的公式:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_13


协方差与相关系数的联系:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘zhaohuilv_14


(方差是协方差的特殊情况,即属性与自身的协方差)

数据归约

维规约:减少随机变量或属性的个数

数据压缩技术(小波变换和主成分分析)
属性子集选择(去掉不相关的属性)
属性构造(从原来的属性集导出更有用的小属性集)

数值规约:用替代的/较小的数据替换元数据

参数模型(回归和对数线性模型)
非参数模型(直方图、聚类、抽样、数据立方体聚集)

数据压缩

使用变换,以便得到原数据的归约或’压缩’表示。如果原数据能从压缩后的数据重构,称该数据归约为有损的,如果只能近似重构原数据,则称该数据归约为’有损的’.

数据变换

目的:将数据变换或统一成适合于挖掘的形式。

数据变换策略:
  • 光滑:去掉数据中的噪声,包括分箱、回归和聚类。
  • 属性构造:又称特征构造;由给定的属性构造新的属性并添加到属性集中,以帮助数据挖掘过程。
  • 聚集:对数据进行汇总或聚集,如分类汇总、构造数据立方体。
  • 规范化:详见下文。
  • 离散化:将原始值用区间标签(如0-10,11-20,21-30)或概念标签(如youth,adult,senior)替换。
  • 由标称数据产生的概念分层:如street,可以泛化到较高的概念层,比如city或country。
三种规范化变换数据
最小-最大规范化

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_15

可以将A的值映射到数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_16_数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘_17数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_16_数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_19的区间上

特别地,当数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_16_数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘_17=1,数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_16_数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_19=0时,有公式:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_24

z 分数规范化

减去均值除以标准差

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_25

小数定标规范化

公式如下:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_26

其中j是使得数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_27的最小整数

注意:上述的分类并不互斥,例如,冗余数据的删除既是一种数据清理,又是一种数据归约。

数据仓库

什么是数据仓库

宽泛地讲:数据仓库是一种数据库,它与单位的操作数据库分别维护。
数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。

数据仓库的四个特征

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘zhaohuilv_28

操作数据库系统与数据仓库的区别

联机操作数据库的系统通常被称为联机事务处理(OLTP)系统
数据仓库系统被称为联机分析处理(OLAP)系统

二者的主要区别:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_29

二者的其他区别:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_30

多维数据模型

数据立方体

四维数据立方体:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_31

数据立方体的方体格

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_32

多维数据模型的模式

星形模式

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_33

雪花模式(对星形模式的一些维表进行规范化)

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_34

事实星座模式(允许事实表共享维表)

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_35

典型的OLAP操作

上卷,下钻,切片和切块,转轴

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_36


(记得看课堂作业)

挖掘频繁项集

关联规则的度量

支持度和置信度公式:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_37


联系:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘zhaohuilv_38

Apriori算法

看课本p162和作业

FP树

看课本p168和作业

相关分析

提升度

公式

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_39

含义

提升度的值小于1,则A的出现和B的出现是负相关的,意味着一个出现可能导致另一个不出现;
提升度的值等于1,意味着A和B是独立的,即它们之间没有相关性;
提升度的值大于1,则A的出现和B的出现是正相关的,意味着一个出现可能蕴含着另一个的出现。

卡方分析

公式

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_40

期望值的求法

根据总量的比值分配

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘_41

全置信度

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘_42

最大置信度

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_43

Kulc度量

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘zhaohuilv_44

余弦度量

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_45

决策树归纳

信息增益

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_46

划分之后的分区的熵

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘zhaohuilv_47

信息增益

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_48

计算信息增益的例子(P218)

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_49


对D中元组分类所需要的期望信息:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_50


如果元组依据属性age进行划分,则对D中元组分类所需要的期望信息:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_51


此种划分的信息增益:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_52

增益率(这个上课讲没讲过我也不知道…应该不考吧…)

分裂信息:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_53


增益率:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_54

基尼指数

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_55

划分之后的分区的基尼指数

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_56

属性A的二元划分导致的不纯度降低

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘_57


(别忘了看看课堂作业)

树的剪枝

先剪枝

提前停止树的构建的方法
例如:选取一定的阈值来决定是否对一个结点进行进一步的划分

后剪枝

对“完全生长”的树剪去子树的方法
例如:CART使用代价复杂度剪枝算法和C4.5采用的悲观剪枝算法

神经网络

看课本p263和课堂作业

聚类算法

什么是聚类分析?

聚类是把一个数据对象(或观测)划分成子集的过程。

对聚类分析的要求

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_58


数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘_59


数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_60


数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘_61


数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘zhaohuilv_62


数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_63


数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘zhaohuilv_64


数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_65


数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_66


数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘_67


数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_68


数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_69


数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据_70

总结:

数据挖掘zhaohuilv 数据挖掘期末考试大纲_聚类_71

K-均值、K-中心点聚类

课本p293,作业刚做过

凝聚和分裂

结合PPT

距离度量

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据仓库_72


其中,均值距离是先求组内平均,再计算距离;

平均距离是先一一计算距离,再求距离的平均

数据挖掘zhaohuilv 数据挖掘期末考试大纲_数据挖掘_73

聚类质量的测定

外在方法:有基准可用的情况下。通过聚类精度和召回率测定
内在方法:没有基准可用时。

轮廓系数

轮廓系数是一种内在的聚类质量的测定度量。
轮廓系数的取值范围在-1和1之间。
轮廓系数越大,认为聚类的质量越高。