维基百科将数据挖掘定义为“在大型数据集中发现模式的过程,其中涉及机器学习,统计数据和数据库系统交叉处的方法”。数据挖掘在90年代和2000年代初期非常流行。一些消息来源说数据挖掘也被称为数据库知识发现(KDD),而另一些人则说它是KDD的阶段之一。但是,最重要的是数据挖掘将来自较大池的数据汇总在一起,并试图找到两个概念或项目之间的关联。例如,它可以找到杏仁与真菌或啤酒与尿布之间的相关性。数据挖掘中用于使数据有意义的更常见操作包括聚类,预测或描述性模型-预测,偏差,数据集之间的相关性,分类,回归和汇总。
数据分析是指“对数据进行提取,清理,转换,建模和可视化,以发现有意义和有用的信息,这些信息可有助于得出结论并做出决策,并可随着时间推移使结果更加精确。"数据分析涉及技术和非技术工具。数据分析有多个阶段,这些阶段可以反复进行以提高准确性并获得更好的结果。数据分析的阶段包括:了解业务目标,数据收集,数据清理,数据处理,通信,优化和重复。
数据挖掘,数据分析之间有七大区别:
1.从定义上说,数据挖掘是指在大量数据中发现模式,数据分析是指提取和组织数据以得出可用于做出明智决策的结论。
2.数据挖掘的覆盖范围包括机器学习,统计和数据库系统,数据分析包括数据挖掘,数据统计,计算机科学,非技术工具。
3.数据挖掘可称为数据库中的知识发现(KDD),数据挖掘是指指描述性,预测性分析,解释性分析等。
4.数据挖掘的慕斯是查找模式,数据分析是为了进行数据测试假设,业务决策。
5.工作人数上来讲,数据挖掘一个人就可以完成,数据分析需要一个较大的团队。
6.数据挖掘的输出结果是输出数据模式,数据分析的结果是经过验证的假设,深入了解数据。
7.数据挖掘的数据结构是是高度结构化的,数据分析的数据结结构化结构化和非结构化。