一、数据挖掘技术的产生:

数据收集和数据存储技术的快速进步,使得积累海量数据已成为家常便饭。然而,提取有用的信息也成为巨大的挑战。通常,由于数据量太大,无法使用传统的数据处理工具和技术处理它。“数据挖掘”技术由此产生,数据挖掘技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合,从而实现处理大量数据的目的。

二、什么是数据挖掘:

数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。数据挖掘技术用来探查大型的数据库,发现先前未知的有用模式。数据挖掘还具有预测未来观测结果的能力。

三、数据挖掘与知识发现:

数据挖掘是数据库中只是发现(konwledge discovery in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程,如下图所示:


四、数据挖掘任务:

通常数据挖掘任务分为下面两大类:

1、预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量或因变量,而用来做预测的属性称为说明变量或自变量。

2、描述任务。这里,目标是导出概括数据潜在联系的模式(相关、趋势、聚类、轨迹和异常)。

五、数据挖掘四种主要任务:

1、预测建模:

预测建模就是为某种任务建立模型。有两类预测建模的任务:分类,用于预测离散的目标变量;回归,用于预测连续的目标变量。

2、关联分析:

用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取

有趣的模式。

3、聚类分析:

旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值之间相互之间尽可能类似。聚类可用来对相关的客户分组、找出显著影响地球气候的海洋区域以及压缩数据等。

4、异常检测:

异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。异常检测的目标是发现真正的异常点,而避免错误的将正常的对象标注为异常点。