数据挖掘(Data Mining,DM)又称 数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和 数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于 人工智能、机器学习、 模式识别、统计学、 数据库、可视化技术等,高度 自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。


知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。 其中数据准备工作相当重要繁琐,甚至占到全部工作的80%。


1)数据挖掘能做以下七种不同事情





· 估计(Estimation)



· 预测(Prediction)



· 相关性分组或 关联规则(Affinity grouping or association rules)



· 聚类(Clustering)



· 描述和可视化(Description and Visualization)



· 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)



2)数据挖掘分类



以上七种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘



· 直接数据挖掘



目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。



· 间接数据挖掘



目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。



· 分类、估值、预言属于直接数据挖掘;后四种属于间接数据挖掘



3)数据挖掘完整的步骤如下:



① 理解数据和数据的来源(understanding)。



② 获取相关知识与技术(acquisition)。



③ 整合与检查数据(integration and checking)。



④ 去除错误或不一致的数据(data cleaning)。



⑤ 建立模型和假设(model and hypothesis development)。



⑥ 实际数据挖掘工作(data mining)。



⑦ 测试和验证挖掘结果(testing and verification)。



⑧ 解释和应用(interpretation and use)。



由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。



4)经典算法



1。C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。



2. K-means算法:是一种聚类算法。



3.SVM:一种监督式学习的方法,广泛运用于统计分类以及回归分析中



4.Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。



5.EM:最大期望值法。



6.pagerank:是google算法的重要内容。



7. Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器。



8.KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一。



9.Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)



10.Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。


OLAP 与 Data Mining?



OLAP(Online Analytical Process),Data Mining用在产生假设,OLAP则用于查证假设。OLAP使用者是自己在做探索(Exploration),但Data Mining是用工具在帮助做探索。


一般而言,Data Mining的理论技术可分为传统技术与改良技术两支。


传统技术以统计分析为代表,统计学内所含序列统计、概率论、回归分析、类别数据分析等都属于传统数据挖掘技术,尤其 Data Mining 对象多为变量繁多且样本数庞大的数据,是以高等统计学里所含括之多变量分析中用来精简变量的因素分析(Factor Analysis)、用来分类的判别分析(Discriminant Analysis),以及用来区隔群体的分群分析(Cluster Analysis)等,在Data Mining过程中特别常用。


在改良技术方面,应用较普遍的有 决策树理论(Decision Trees)、类神经网络(Neural Network)以及规则归纳法(Rules Induction)等。决策树是一种用树枝状展现数据受各变量的影响情形之预测模型,根据对目标变量产生之效应的不同而建构分类的规则,一般多运用在对客户数据的分析上,例如针对有回函与未回含的邮寄对象找出影响其分类结果的变量组合,常用分类方法为CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)两种。


Data Mining实际应用功能可分为三大类六分项来说明:Classification和Clustering属于分类区隔类;Regression和Time-series属于推算预测类;Association和Sequence则属于序列规则类。



[Journals]


1.ACM Transactions on Knowledge Discovery from Data (TKDD)


2.IEEE Transactions on Knowledge and Data Engineering (TKDE)


3.Data Mining and Knowledge Discovery


4.Knowledge and Information Systems


5.Data & Knowledge Engineering


[Conferences]


1.SIGMOD:ACM Conference on Management of Data (ACM)


2.VLDB:International Conference on Very Large Data Bases (Morgan Kaufmann/ACM)


3.ICDE:IEEE International Conference on Data Engineering (IEEE Computer Society)


4.SIGKDD:ACM Knowledge Discovery and Data Mining (ACM)


5.WWW:International World Wide Web Conferences (W3C)


6.CIKM:ACM International Conference on Information and Knowledge Management (ACM)


7.PKDD:European Conference on Principles and Practice of Knowledge Discovery in Databases ( Springer-VerlagLNAI)