知识发现与数据挖掘的概念

知识发现的全称是从数据库中发现知识(KDD)。
数据挖掘(DM)是从数据库中挖掘知识。
知识发现和数据挖掘的目的:从数据集中抽取和精化一般规律或模式。

知识发现的一般过程

数据准备
数据挖掘
结果的解释评估

数据准备:

数据选、数据预处理和数据变换。
(1)数据选取就是根据用户的需要从原始数据库中抽取的一组数据。
(2)数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等。
(3)数据变换是从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数。

数据挖掘

(1)确定挖掘的任务或目的是什么。如数据总结、分类、聚类、关联规则或序列模式等。
(2)使用什么样的挖掘算法。同样的任务可以用不同的算法来实现。
选择实现算法有两个考虑因素:
(1)不同的数据的特点,因此需要用与之相关的算法来挖掘;
(2)用户或实际系统的要求,有的用户可能希望获取描述型的、容易理解的知识,而有的用户系统的目的是获取预测准确度尽可能高的预测型知识。

结果解释和评价

数据挖掘阶段发现的知识模式中可能存在冗余或无关的模式,所以还要经过用户或机器的评价。
若发现所得模式不满足用户要求,则需要退回到发现阶段之前,如重新选取数据,采用新的数据变换方法,设定新的数据挖掘参数值,甚至换一种挖掘算法。
对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“if-then…”规则。

知识发现的任务

数据总结:对数据进行浓缩,给出它的紧凑描述。
概念描述:从学习任务相关的数据中提取总体特征。
分类:提出一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的一个。
聚类:根据数据的不同特征,将其划分为不同的类。包括统计方法、机器学习方法、神经网络方法和面向数据库的聚类方法等。
相关性分析:发现特征之间或数据之间的相互依赖关系。
偏差分析:寻找观察结果与参照量之间的有意义的差别。
建模:通过数据挖掘,构造出能描述一种活动、状态或现象的数学模型。

知识发现的主要方法:

1.统计方法:从事物的外在数量上的表现去推断事物可能的规律性。常见的有回归分析、判别分析、聚类分析以及探索分析等。
2.粗糙集:粗糙集是具有三值隶属函数的模糊集,即是、不是、也许。常与规则归纳、分类和聚类方法结合起来使用。
3.可视化:把数据、信息和知识转化为图形等,使抽象的数据信息形象化。信息可视化也是知识发现的一个有用的手段。
4.机器学习方法:包括符号学习和连接学习。

知识发现的对象:

1.数据库:当前研究比较多的是关系数据库的知识发现。

2.数据仓库:数据挖掘为数据仓库提供深层次数据分析的手段,数据仓库为数据挖掘提供经过良好预处理的数据源。

3. Web信息:Web知识发现主要分内容发现和结构发现。内容发现是指从Web文档的内容中提取知识;结构发现是指从Web文档的结构信息中推导知识。

4. 图像和视频数据:图像和视频数据中也存在有用的信息。比如,地球资源卫星每天都要拍摄大量的图像或录像。