1,什么是数据挖掘

      数据挖掘是从大量的数据中挖掘有趣的模式和知识的过程。

2,什么是KDD

       KDD是数据中的知识发现,包含以下过程:

       数据清理;数据集成;数据选择;数据变换;数据挖掘;模式评估;知识表现。

3,数据挖掘中的数据

     (1)数据库数据

               主要是关系数据库中的数据,关系数据库是表的集合,每个表都包含一组属性(列)和大量的元组(行)

     (2)数据仓库

               数据仓库是从多个数据源收集的数据,与数据库相比

对比内容

数据库

数据仓库

数据内容

当前值

历史的,存档的,归纳的,计算的数据

数据特征

面向业务操作程序,重复处理

面向主题域,管理决策分析应用

数据结构

高度结构化,复杂,适合操作计算

简单,适合分析

使用频率


中到低

数据访问

每个事务只访问少量记录

有的事务要访问大量记录

对响应时间的要求

以秒为单位

以秒,分钟,甚至小时为单位

            通常数据仓库称作数据立方体(data cube)的多维数据结构建模,适合OLAP。

       (3)事务数据

                事务数据包含一个唯一标示数据的事务标示号和一个组成事务的项。

       (4)其他类型数据

                 包括时间数据;空间数据;流数据;多媒体数据;网状数据;万维网等数据。

4,数据挖掘的方法

       (1)特征化和区分

        (2)挖掘频繁模式,关联和相关性

        (3)分类与回归

        (4)聚类分析

         (5)离群点分析

5,判断模式是否有趣

         (1)客观度量

            对与一个关联规则X=>Y

             支持度:表示X和Y同时出现的概率

             置信度:表示出现X时,Y出现的概率

         (2)主观度量

             如果这种模式是出乎意料的(与用户信念相反),或者提供用户可以采取的行动的至关重要的信息。 在后一种情况下,这种模式称为“可行动的”。 意料之中的模式也可能是有趣的:如果他证实了用户希望证实的假设。