一、 数据挖掘引入

1 . 数据过载问题 :


① 海量数据 : 自动化的数据收集工具 和 成熟的数据库技术 , 积累了海量数据 ;

② 数据处理瓶颈 : 需要在 数据库 , 数据仓库 , 或其它信息介质中处理海量数据 ;


我们被数据淹死了 , 但是渴望知识 ; 数据太多并没有用 , 需要将 有用的知识 和 无用的信息 分辨出来 ;


2 . 解决方案 :


① 数据仓库技术 : 数据仓库技术 和 在线分析处理技术 ;

② 数据挖掘技术 : 从海量数据中 , 挖掘感兴趣的知识 ;



二、 数据挖掘简介

1 . 数据挖掘 ( Data mining ) : 其本质目的是将数据转换成知识 ; 从大量数据中 , 提取出感兴趣的 模式 ( Patterns ) 或 知识 ( Knowledge ) ;


2 . 数据挖掘 的代名词 :


① KDD ( 从数据到知识 ) : Knowledge Discovery From Data

② 知识抽取 : Knowledge Extraction ;

③ 数据 / 模式分析 : Data / Pattern Analysis ;

④ 信息收获 : Information Harvesting ;

⑤ 商务智能 : Business Intelligence


与数据挖掘类似的技术还有 模式识别 , 机器学习等 ;


3 . 查询处理 与 数据挖掘 :


① 数据库查询操作 : 在数据库中使用 SQL 语句查询 , 不属于数据挖掘范畴 , 这属于查询处理范畴 ;

② 查询处理 与 数据挖掘 区别 : 数据挖掘的 知识预先是不知道的 , 挖掘出来的知识准确性也不知道 , 数据库查询出来的都是可预见的 , 结果是精确的 ;



三、 数据挖掘 与 KDD ( Knowledge Discovery From Data ) 从数据到知识

数据挖掘可以看做 KDD 的一个步骤 ;


KDD 概念 : Knowledge Discovery From Data , 从数据到知识 ;


KDD 完整流程 : 第六个步骤就是 数据挖掘 , 数据挖掘大约占 KDD 的 1/4 工作量 ;


① 数据源 : 数据源的海量数据

② 数据继承 ( 过程 ) : 通过数据采集 , 从海量数据中采集目标数据 ;

③ 目标数据 : 产生目标数据 ;

④ 数据预处理 ( 过程 ) : 预处理目标数据 , 生成洁净数据 ;

⑤ 洁净数据 : 产生洁净数据 ;

数据挖掘 ( 过程 ) : 使用数据挖掘 , 从洁净数据中发现模式 ;

⑦ 模式 : 得到模式 ;

⑧ 评估表示 ( 过程 ) : 评估表示 数据挖掘得到的模式 , 得到知识 ;

⑨ 知识 : 最终得到的知识 ;

【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )_数据

实际上工作时的数据挖掘包括了整个 KDD 所有流程 ;



四、 数据挖掘中的数据源

任何数据都可以用于数据挖掘 , 音乐数据 , 图像数据 , 视频数据 , 文本数据等都可以被挖掘 ;

数据挖掘的算法本质是一样的 , 只是针对不同的数据 , 进行对应的修改 ;



五、 数据挖掘中的特点

1 . 用于挖掘的数数据源 必须 真实 :


① 存在的真实数据 : 数据挖掘处理的数据一般是存在的真实数据 , 不是专门收集的数据 ;

② 数据收集 : 该工作不属于数据挖掘范畴 , 属于统计任务 ;


2 . 数据必须海量 :


① 少量数据处理 : 少量数据使用统计方法分析 , 不必使用数据挖掘 ;

② 海量数据 : 处理海量数据时 , 才使用数据挖掘 , 涉及到 有效存储 , 快速访问 , 合理表示 等方面的问题 ;


3 . 数据挖掘的查询是随机的 :


① 要求不精确 : 查询灵活 , 没有精确的要求 ( 无法用 SQL 语句写出来 ) ;

② 结果正确性未知 : 查询出来结果也不知道是否准确 ;


4 . 未知结果 :


① 挖掘结果 : 数据挖掘 挖掘出的知识是未知的 , 目的是为了发掘潜在的知识 , 模式 ;

② 知识使用 : 数据挖掘出的知识只能在特定领域使用 , 如金融领域数据挖掘结果 , 只能在金融领域及相关领域使用 ;