第一章 何为数据挖掘

一、数据挖掘定义、意义和基本任务

1、数据挖掘**是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模型和趋势,并根据这些信息建立起用于决策支持的模型,提供预测性决策支持的方法、工具和过程。**简言之就是在海量的数据中挖掘出有价值的信息,为决策提供方向、决心等。

2、数据挖掘的意义:数据挖掘有助于企业发现业务的趋势,揭示已知事实,预测未知的结果,对于企业保持竞争力十分重要。

3、数据挖掘的基本任务:利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力

二、数据挖掘建模基本流程

python数据挖掘代码 python进行数据挖掘_python

  1. 目标定义:结合业务分析和理解任务,确定需要采集的数据,确定挖掘的具体目标
  2. 数据采集、探索:合理导出需要的数据、确保数据的质量进行异常值分析、缺失值分析、相关性分析、周期性分析
  3. 数据整理:数据的预处理如数据清洗、数据变换、数据集成等
  4. 构建模型:根据已有的数据和挖掘目标构建模型,并进行验证
  5. 模型评价:设定相应的评价指标,通过多模型比较选出最为合适的模型,并进行优化
  6. 模型发布:模型建立后,开始部署,让模型预测趋势或计算相应的指标。
  7. 编写报告:结合业务去分析和理解模型运行结果,得出相应的结论。

2.1定义挖掘目标:

针对具体的需求,通过分析应用领域、了解相关领域的有关情况,熟悉背景知识,理解用户真正的需求。

2.2数据取样:

**抽取数据的标准:**1、相关性;2、可靠性;3、有效性

**数据质量的标准:**1、资料完整无缺,各类指标项齐全;2、数据准确无误,且反应的都是在正常状态下的水平

数据样本的精选(数据抽样)能有效减少数据处理量,节省系统资源,且不影响数据挖掘结果的正确性。

数据抽样常见的方式:

**1、随机抽样:**如按10%的比例对一个数据集进行随机抽样,则每一组观测值都有10%的机会被抽到。

**2、等距抽样:**按5%的比例对一个有100组的观测值数据集进行等距抽样,即分成五组等距(20、40、60、80、100)

**3、分层抽样:**将样本总体拆分若干个层次,每个层次的观测值都具有相同的被选用都概率,但对不同层次的观测值可以有不同的被选用概率

**4、按起始顺序抽样:**从输入数据集的起始处开始抽样,抽取的数量可以给定一个百分比,或者直接给定选取观测值的组数

**5、分类抽样:**依据某种属性的取值来选择数据子集,抽样以类为单位,如按客户关系分类、按地区分类

2.3数据探索、数据预处理:

**目的:**保证样本数据的质量,从而保证最终的挖掘模型的质量。

数据探索侧重于分析:包括异常值分析、缺失值分析、周期性分析等。

数据预处理侧重解决数据问题:包括数据筛选、数据降维处理、缺失值处理、数据变量变换、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。

2.4挖掘建模:

分析本次建模属于数据挖掘应用中的哪类问题:分类、聚类、关联规则、时序模式或智能推荐

2.5模型评价:

模型评价是根据设定评价指标,从众多模型中选出一个最好的模型,并根据业务对模型进行解释和应用的过程。