很久以前就一直想好好了解下数据挖掘相关的知识,一直拖到现在。现在正处于大数据时代,数据挖掘有着广泛的应用前景。数据挖掘概念与技术.pdf

1.什么是数据挖掘?其作用和意义是什么?

近年来互联网飞速发展,快速增长的海量数据收集,存放在大型数据库中。然而,虽然数据丰富,但信息贫乏,没有强有力的工具,理解它们已经远远超出了人的能力。数据挖掘就是从大量的数据中提取或"挖掘"知识,也叫知识挖掘。通过数据挖掘工具进行数据分析,发现重要的数据模式,将数据转换为知识。数据挖掘研究的目的开发有效的数据挖掘工具。

2.数据库知识发现的一般过程

(1)数据清理(消除噪音或不一致数据)

(2)数据集成(多种数据源可以组合在一起)

(3)数据选择(从数据库中提取与分析任务相关的数据)

(4)数据变换(数据变换或同一成适合数据挖掘的形式;如通过汇总或聚类操作)

(5)数据挖掘(基本步骤,使用智能方法提取数据模式)

(6)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)

(7)知识表示(使用可视化和知识表示技术,向用户提供数据挖掘的知识)

数据挖掘原理与运用丁兆云pdf 数据挖掘原理与实践pdf_大数据

3.数据挖掘系统的主要组成部分

(1)数据仓库:一种多个异种数据源在单个站点以统一的模式组织存储,以支持管理决策。

(2)知识库:邻域知识,用于指导搜索,或评估结果模式的兴趣度。

(3)数据挖掘引擎:数据挖掘系统基本的部分,由一组功能模块组成,用于特征,关联,分类,聚类分析,演变或偏差分析。

(4)模式评估模块:通常,该部分使用兴趣度度量,并与挖掘模块交换,以便将搜索聚焦在有趣的模式上。

数据挖掘原理与运用丁兆云pdf 数据挖掘原理与实践pdf_数据_02

4.模式兴趣度的客观度量

1)支持度

对于形如的关联规则,一种客观度量是规则的支持度。规则的支持度的表示满足规则的样本百分比。支持度是概率

,其中,表示同时包含X和Y的事务,如下式所示。

                                                                       

2)置信度

置信度是条件概率P(Y|X);即包含X的事务也包含Y事务的概率,如下式所示