I . 数据挖掘 功能



1 . 概念描述 ( Concept Description ) : 主要进行 表征 与 判断 操作 , 概括 , 总结 , 对比 数据的特征 ;

如 : 对产品分类 , 对真实世界进行描述 ;


2 . 关联分析 ( Association ) : 分析两个事物的发生的 相关性 , 因果性 ;

如 : 尿布 与 啤酒 经常被一起购买 ( 相关性分析 ) ; 银行对申请贷款的人的信用评级进行相关性分析 ;


3 . 分类和预测 ( Classification and Prediction ) : 数据挖掘中的重要部分 , 构造用于 描述 / 区分 对 未来预测 的 分类 / 概念 的模型 ;


有监督学习过程 : 分类和预测是典型的有监督学习的过程 , 先给一组训练数据 , 根据该数据进行训练 , 完成后对未知的数据进行预测 ;

如 : 预测票房 , 疾病 ; 预测未知数值 ; 根据气候对国家分类 ; 根据汽车油耗对汽车分类 ;


4 . 聚类分析 ( Cluster Analysis ) : 将数据分组 , 使类内部数据相似度最大化 , 使类之间数据的相似度最小化 ;

数据类型标签未知 : 将数据分组形成新类 , 分析找出分类的依据 ;


5 . 异常检测 ( Outlier Analysis ) :


① 异常值 ( Outlier ) : 不符合一般行为特点的数据 ;

② 异常值作用 : 该数据很重要 , 用于罕见事件分析 , 欺诈检测 ;


6 . 趋势与演化分析 ( Trend and Evolution Analysis ) : 趋势与偏差 , 如回归分析 ; 序列模式挖掘 , 周期性分析 ; 基于相似性的分析 ;



II . 数据挖掘 结果判断



数据挖掘结果判断 : 数据挖掘得出的 知识 / 模式 , 如何判断得出的结果是否有效 ;


① 客观判断方法 : 通过科学计算进行判断是否正确 , 该计算基于 模式 的t 统计和结构 ; ( 学术界判断 )

② 主观判断方法 : 基于人的个人感觉 , 根据该结果是否盈利 , 客户 ( 甲方 ) 给出评判结果 ; ( 工业界判断 )



III . 数据挖掘 学习框架



1 . 数据挖掘技术 ( 重点 ) : 聚类分析 , 异常检测 , 分类 , 关联规则分析 , 序列模式分析 , 数据方体与数据仓库 ;


2 . 数据挖掘原理 : 数据库技术 ( 索引 , 数据压缩 , 数据结构 ) , 人工智能 , 机器学习 , 统计学 , 信息论 , 理论计算 ( 近似 / 随机 算法 ) , 数学规划 , 几何计算 ;


3 . 数据挖掘应用 : CRM , 搜索分析 , 网络安全 , 生物信息分析 …



IV . 数据挖掘 分类



1 . 根据输入数据类型分类 :


① 根据 数据模型 分类 : 根据数据模型分类 , 分类成 关系 , 面向对象 , 对象 - 关系 , 数据仓库 等不同类型的数据模型的 数据挖掘 ;

② 根据 数据类型 分类 : 时间数据 , 空间数据 , 文本数据 , 音视频多媒体数据 , WEB 数据 等类型的数据挖掘 ;


2 . 根据输出数据类型分类 :


① 根据结果类型分析 : 特征分析 , 关联分析 , 聚类分析 , 偏差分析 , 异常检测分析 , 趋势和演化分析 等类型的 数据挖掘 ;

② 根据挖掘的知识的粒度与抽象级别分类 : 高抽象的泛化知识 , 原始层的知识 , 多层的知识 ;


3 . 根据采用的技术分类 : 如 机器学习 , 模式识别 , 神经网络 , 可视化 等技术类型的 数据挖掘 ;


4 . 根据应用领域分类 : 如 金融 , 生物 , 电讯 等领域的数据挖掘 ;