1.SEMMA数据挖掘过程
著名的SAS数据挖掘项目方法论中,将数据挖掘项目整体过程定义为:定义业务问题、系统环境评估、数据准备、挖掘数据SEMMA、模型实施、回顾与评价,其中挖掘数据SEMMA是核心过程,包括抽样Sample、探索Explore、修整Modify、建模Mode以及评估Assess几个阶段,如下图。
(1)抽样
- 从数据集中抽取有代表性的样本,样本应该大到不丢失重要的信息,小到能够便于操作。
- 创建三个数据子集:①训练数据,用于拟合各种模型; ②验证数据,用于评估各模型并进行模型选择避免过程拟合 ; ③测试数据,用于对模型的普适性形成真空的评价。
(2)探索
使用可视化的方法或主成分分析、因子分析、聚类和决策树等统计方法对数据集进行探索分析,发现未曾预料的趋势和异常情况,对数据形成初步理解,寻求进一步分析的思路。
(3)调整 包括生成和转换变量,发现异常值,变量选择等。
(4)模型 针对数据集选择适当的模型进行建模。
(5)评估 评估模型的实用性、可靠性和效果。
2.CRISP-DM数据挖掘过程
CRISP-DM模型为一个数据挖掘工程提供了一个完整的过程描述。该模型将工程分为6个不同的,但顺序并非完全不变的阶段。阶段顺序不是严格不变的,这取决于每一阶段或一个阶段某一特定任务的结果,这个结果是下一阶段必须的。上图的外圈象征数据挖掘自身循环的本质――通过挖掘过程得到的知识还可以进一步挖掘,发现新的知识,通常是更聚焦的商业问题。后续的过程可以从前一个过程得到益处。箭头指出了阶段之间最重要和频繁的关联依赖。
(1)业务理解(business understanding)
从商业角度理解项目的目标和要求,接着把这些理解知识通过理论分析转化为数据挖掘可操作的问题,制定实现目标的初步规划;
(2)数据理解(data understanding)
数据理解阶段开始于原始数据的收集,然后是熟悉数据、甄别数据质量问题、探索对数据的初步理解、发觉令人感兴趣的子集以形成对探索信息的假设;
(3)数据准备(data preparation)
数据准备阶段指从最初原始数据中未加工的数据构造数据挖掘所需信息的活动。数据准备任务可能被实施多次,而且没有任何规定的顺序。这些任务的主要目的是从源系统根据维度分析的要求,获取所需要的信息,需要对数据进行转换、清洗、构造、整合等数据预处理工作;
(4)建模(modeling)
在此阶段,主要是选择和应用各种建模技术。同时对它们的参数进行调优,以达到最优值。通常对同一个数据挖掘问题类型,会有多种建模技术。一些技术对数据形式有特殊的要求,常常需要重新返回到数据准备阶段;
(5)模型评估(evaluation)
在模型部署发布前,需要从技术层面判断模型效果和检查建立模型的各个步骤,以及根据商业目标评估模型在实际商业场景中的实用性。此阶段关键目的是判断是否存在一些重要的商业问题仍未得到充分考虑;
(6)模型部署(deployment)
模型完成后,由模型使用者(客户)根据当时背景和目标完成情况,封装满足业务系统使用需求。