数据挖掘概论(参考书:数据挖掘原理、方法及Python应用实践教程)

1.数据挖掘含义

数据收集和存储技术的发展使得各组织机构能够积累海量的数据。但是,由于数据量太大,传统的数据分析工具和技术已经不再适用,因此,需要开发新的方法来对数据进行处理。
数据挖掘(data mining)就是利用一系列技术和方法从海量数据中找出隐藏于其中的潜在、有用的新知识的过程。在庞大的数据中找到有价值的知识,就好像在一堆沙子中淘金,因此被形象的称为data mining。

2.相关概念辨析

知识发现与数据挖掘:
数据挖掘是知识发现(knowledge discovery)的核心,是其中的一个步骤。完整的知识发现包含:①数据准备;②数据挖掘;③结果表达和解释
数据挖掘、机器学习和人工智能:
人工智能(artificial intelligence)指由人制造出来的机器所表现的智能。对于机器是否智能采用图灵测试进行判断。人工智能的核心是构建接近甚至超越人类的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等。
机器学习(machine learning)是人工智能发展到一定阶段的必然产物,也是人工智能的一个分支。研究机器学习的目标就是让计算机系统拥有人的学习能力,从而实现人的“智能”。机器学习是数据挖掘的技术支撑之一,除此之外,数据挖掘还依靠数据库和数据仓库技术。

3.数据挖掘基本任务

数据挖掘的基本任务包括分类与预测、聚类分析、关联分析、异常检测等,大致可分为两类,即预测任务和描述任务。
预测任务:通过利用样本的属性和样本的值训练出的模型,结合某个特定样本属性来预测该样本对应的值。
描述任务:探索目标数据集中隐藏的联系或模式,可以简单地理解为寻找数据集中隐含的规律。

4.数据挖掘流程

明确目标:首先需要熟悉业务背景,根据问题的实际情况及用户的真实需求来明确最终需要解决什么问题,得到什么样的结果。;
数据收集:在确定数据挖掘的目标后,确定需要收集哪些数据。在数据收集时,并非维度越多或者越少越好,选取数据有三个标准:相关性、可靠性和有效性,同时,数据质量也非常重要。
数据探索:数据探索就是通过检验数据集的数据质量、绘制图表、计算数据特征量等手段,尽可能地掌握样本的所有数据特征。数据探索主要包括异常值分析、缺失值分析、相关分析和周期性分析等。
数据预处理:在数据分析之前对数据进行预处理,使数据结构及类型能符合建模的要求。数据预处理包括:缺失值的处理、数据标准化(是否标准化要判断)、异常值检测(寻找离群点)、数据维度处理(数据维度过多需要主成分分析法)。
挖掘建模:挖掘建模是数据挖掘的核心环节,对数据进行分析和挖掘。
模型评价:对模型评价,需要依照具体的模型,采用相应的指标进行评价。