很久以前就一直想好好了解下数据挖掘相关的知识,一直拖到现在。现在正处于大数据时代,数据挖掘有着广泛的应用前景。数据挖掘概念与技术.pdf
1.什么是数据挖掘?其作用和意义是什么?
近年来互联网飞速发展,快速增长的海量数据收集,存放在大型数据库中。然而,虽然数据丰富,但信息贫乏,没有强有力的工具,理解它们已经远远超出了人的能力。数据挖掘就是从大量的数据中提取或"挖掘"知识,也叫知识挖掘。通过数据挖掘工具进行数据分析,发现重要的数据模式,将数据转换为知识。数据挖掘研究的目的开发有效的数据挖掘工具。
2.数据库知识发现的一般过程
(1)数据清理(消除噪音或不一致数据)
(2)数据集成(多种数据源可以组合在一起)
(3)数据选择(从数据库中提取与分析任务相关的数据)
(4)数据变换(数据变换或同一成适合数据挖掘的形式;如通过汇总或聚类操作)
(5)数据挖掘(基本步骤,使用智能方法提取数据模式)
(6)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)
(7)知识表示(使用可视化和知识表示技术,向用户提供数据挖掘的知识)
3.数据挖掘系统的主要组成部分
(1)数据仓库:一种多个异种数据源在单个站点以统一的模式组织存储,以支持管理决策。
(2)知识库:邻域知识,用于指导搜索,或评估结果模式的兴趣度。
(3)数据挖掘引擎:数据挖掘系统基本的部分,由一组功能模块组成,用于特征,关联,分类,聚类分析,演变或偏差分析。
(4)模式评估模块:通常,该部分使用兴趣度度量,并与挖掘模块交换,以便将搜索聚焦在有趣的模式上。
4.模式兴趣度的客观度量
1)支持度
对于形如的关联规则,一种客观度量是规则的支持度。规则的支持度的表示满足规则的样本百分比。支持度是概率
2)置信度
置信度是条件概率P(Y|X);即包含X的事务也包含Y事务的概率,如下式所示