大数据挖掘过程包括:商业理解,数据理解,数据准备,模型构建,评估和部署。其中最重要的就是数据准备,数据理解和模型构建。

一、数据准备:从数据源提取分析和建模的样本数据。

1、选择数据(数据抽样和划分):(1)数据抽样包括简单抽样、分层抽样和过采样。(2)数据划分

2、数据清理(数据修正):(1)缺失值处理,删除,替换。(2)异常值的判断和处理

3、数据重构(数据转换):(1)生成衍生变量。(2)改变变量分布的转换(取对数,平方根,取到数,开平分,取指数)。(3)分箱转换。(4)数据标准化。Min-Max标准化

4、整合数据。

二、数据理解

1、收集原始数据:数据来源数据库,网络资源等。

2、数据描述(1)获取数据方法(2)访问的数据源(3)数据量(4)给出表及关系报告(5)检查属性类型(6)从商业角度,理解每个属性和属性值的含义。

3、数据探索(1)描述统计集中趋势(平均数,中位数,众数),离散程度(方差,标注差,四分差,极差),分布状态(偏差,峰态)利用条形图,直方图,盒形图,折线图,散点图(2)变量筛选

4、检验数据质量:数据是否完整,正确错误,是否有缺失值。

三、模型构建

1、选择模型技术(1)分类问题:决策树,随机森林,回归,神经网络。(2)数据预测:决策树,回归,神经网络,支持向量机。(3)模式识别:关联分析(购物分析),深度学习(图形识别),语言识别,自然语言处理。(4)聚类分析:k-mean,协同过滤(物品和用户相识度分析)

2、产生检验设计:综合评价指标,分群正确率

3、建立模型(1)分类预测,混淆矩阵,提升度,收益图,ROC曲线(2)回归预测:复相关系数,决定系数(3)关联规则:支持度,规则支持度,规则置信度,规则提升度(4)聚类分析:群内相似度,群间相似度