数据挖掘



有人说,大数据是新时代的黄金和石油,掌握了它,就掌握了新经济的命脉;用好了它,就拥有了新战略型资源。数据挖掘,就是从大量的,不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们实事先不知道的,但又是潜在有用的信息和知识的过程。


大数据研发的目的是利用大数据技术去发现大数据的价值并将其应用到相关领域,通过大数据的处理相关问题促进社会的发展。数据挖掘的内容集中在几个方面上,即

关联、回归、分类、聚类、预测、诊断六个方面。接下来将介绍这六个方面的数据挖掘内容及技术。


关联:若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可以分为

简单关联、时序关联、因果关联。关联分析的目的是找出数据之间隐藏的关联网。有时并不知道数据库中数据的关联关系,即使知道也是不确定的,因此关联分析生成的规则带有可信度,通过可信度来描述这种关系的确定程度。


回归:回归是确定两种或两种以上的变量之间相互定量的关系的一种统计分析方法。回归方法分为:

一元线性、一元非线性、多元线性、多元非线性、逐步回归、逻辑回归等。


分类:分类典型的应用就是根据事物在数据层面表现的特征,对事物进行科学分类。经典的分类算法有:决策树方法(ID3、C4.5和CART算法)、神经网络方法、贝叶斯方法、K-近邻算法、判别分析、支持向量机等分类方法。


聚类:聚类分析又称为分群分析,是根据“物以类聚”的道理,对样品进行分类的一种多元统计分析方法。


预测:预测是预计未来事件的一门学科,预测的重要意义在于它能够自觉地认识客观规律的基础上,借助大量的信息资料和现代化的计算手段,比较准确地揭示出客观事物运行中的本质联系及发展趋势,预见到可能出现的种种情况,勾画出未来事物发展的基本轮廓,提出各种可以互相替代的发展方案,这就使人们具有了战略眼光,使得决策有了充分的科学依据。


诊断:诊断的对象是离群点或称为孤立点。离群点是不符合一般数据模型的点,离群点诊断有着广泛的应用,它能够用于欺诈监测,例如探测不寻常的信用卡使用或电信服务。离群点检测大致可以分为:基于统计模型的方法、基于距离或者邻近度的方法、基于偏差的方法、基于密度的方法和基于聚类的方法。