近年来,数据分析,数据挖掘和数据科学等领域不可谓不火热。而且人工智能、算法、数据科学领域的薪酬普遍高于传统互联网行业。既然决定从事互联网行业,那就得给自己找一个不错的方向,并为之不断学习~

数据挖掘的概念:

数据挖掘可以简单的理解为从大量数据中提取或挖掘知识或者说是知识发现。

数据挖掘应用了众多领域的思想,包括来自统计学的抽样、估计和假设检验;来自人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论等。

数据挖掘的步骤:

数据挖掘作为知识发现的过程,一般由三个主要阶段组成:

数据准备

数据挖掘

结果的解释评估

知识的发现可以描述为这三个阶段的反复过程。

python 数据挖掘与机器学习 pdf_数据挖掘

数据准备

数据准备过程可以针对数据仓库,也可以是普通数据文件。数据准备分为三个子步骤:

python 数据挖掘与机器学习 pdf_数据_02

数据选取。 目的是确认挖掘任务的操作对象。

数据预处理。一般包括消除噪声,推导计算缺省数据,消除重复记录、完成数据类型转换等。

数据变换。目的是将数据转换为适合数据挖掘需要的形式。

数据挖掘

数据挖掘首先要确定挖掘的任务或目的。数据挖掘任务大致可以分为两大类:

python 数据挖掘与机器学习 pdf_数据_03

分类预测任务

分类预测任务是从已经分类的数据中学习模型,并使用学习出来的模型去解决新的未分类的数据。例如:给出一个顾客的消费情况,判断其是重要客户的可能性。

在分类预测任务中,需要用到的数据包括:

训练集:用于训练学习算法和建立分类模型。

测试集:用于验证所生成的模型是否正确。

验证集:为实际应用中的数据,不具有类标签。

常见的分类预测算法有:决策树、神经网络、规则归纳、支持向量机、贝叶斯、粗糙集、回归分析、K-最近邻等

python 数据挖掘与机器学习 pdf_python数据挖掘算法是什么_04

描述型任务

根据数据内部具有的固有联系,生成对数据集中的数据关系或整个数据集的概要描述。

典型的描述型任务包括:

摘要:用于对数据集进行总结。

聚类:把没有预定类别的数据划分为几个合理的类别。

依赖分析:用于发现数据项之间的关系。

比如一个典型的聚类描述型任务:根据客户的行为特征和基本属性,将不同的客户划分不同类型的相似群体。

描述型任务的典型方法有:聚类、关联分析等。

数据挖掘技术的知识大纲大致如此。