跨行业数据挖掘标准流程
Parse1 业务理解(Business Understanding)
·主要任务是深刻理解业务需求,在此基础上制定数据挖掘的目标和实现目标的初步计划。
(比如两个月内将硅钢纵条纹比率由12.1%降低到1.8%)
Parse2 数据理解(Data Understanding)
·收集数据、熟悉数据、识别数据的质量问题和探索引起兴趣的子集。
(初步确定影响因素,并对数据具体含义、命中目标值、异常、缺失等详细描述《数据收集及质量检验报告》)
Parse3 数据准备阶段(Data Preparation)
·从收集来的数据集选择必要的属性(因素),并按关联关系将他们连接成一个数据集,然后进行数据清洗(空值及异常值处理、离群值剔除,数据标准化等。
一般最好不要轻易删除数据,对于空值、异常值处理、离群值通常采取均值、迭代回归等方法进行补缺或修正处理,尤其在样本数量较少的情况下。
数据标准化方法:‘0均值-1方差法’(高斯分布标注化?)、最大值-最小值法、移动小数点法
Parse4 建模阶段(Modeling)
·选择应用不同的数据挖掘技术,并确定模型最佳的参数。
·如果初步分析发现模型的效果不太满意,需要再跳回到数据准备阶段,甚至数据理解阶段。
不相容数据:
Parse5 模型评估阶段(Evaluatoin)
·主要对建立的模型进行可靠性评估和合理性解释
Parse6 部署阶段(Deployment)
·根据评估后认为合理的模型,制定将其应用于实际工作的策略,形成应用部署报告。
【SAP 系统就是ERP系统,以供应链为主线,包括从销售订单或生产经营计划->生产排程->组织采购->安排生产->销售发货的整个过程,着力于计划流、物流、信息流、资金流的统一运转,通过计划流驱动物流,通过物流驱动资金流的良性循环。】