跨行业数据挖掘标准流程

Parse1 业务理解(Business Understanding)

·主要任务是深刻理解业务需求,在此基础上制定数据挖掘的目标和实现目标的初步计划。

(比如两个月内将硅钢纵条纹比率由12.1%降低到1.8%)

Parse2 数据理解(Data Understanding)

·收集数据、熟悉数据、识别数据的质量问题和探索引起兴趣的子集。

(初步确定影响因素,并对数据具体含义、命中目标值、异常、缺失等详细描述《数据收集及质量检验报告》)

Parse3 数据准备阶段(Data Preparation)

·从收集来的数据集选择必要的属性(因素),并按关联关系将他们连接成一个数据集,然后进行数据清洗(空值及异常值处理、离群值剔除,数据标准化等。

一般最好不要轻易删除数据,对于空值、异常值处理、离群值通常采取均值、迭代回归等方法进行补缺或修正处理,尤其在样本数量较少的情况下。

数据标准化方法:‘0均值-1方差法’(高斯分布标注化?)、最大值-最小值法、移动小数点法

Parse4 建模阶段(Modeling)

·选择应用不同的数据挖掘技术,并确定模型最佳的参数。

·如果初步分析发现模型的效果不太满意,需要再跳回到数据准备阶段,甚至数据理解阶段。

不相容数据:

Parse5 模型评估阶段(Evaluatoin)

·主要对建立的模型进行可靠性评估和合理性解释

Parse6 部署阶段(Deployment)

·根据评估后认为合理的模型,制定将其应用于实际工作的策略,形成应用部署报告。

 

【SAP 系统就是ERP系统,以供应链为主线,包括从销售订单或生产经营计划->生产排程->组织采购->安排生产->销售发货的整个过程,着力于计划流、物流、信息流、资金流的统一运转,通过计划流驱动物流,通过物流驱动资金流的良性循环。】