ps:由于篇幅问题,这篇博客主要介绍数据挖掘标准化流程中的project understanding问题,剩下的5个方面,特别是modeling等涉及具体算法的部分会在后续的博客中以结合orange和knime等开源软件或者是一些python小程序的形式写下去
本文的一部分是翻译,有的部分是自己做数据挖掘项目时候的一些小的心得,也不见得正确,仅作抛砖引玉之用。如果需要相关的书籍电子版的也可以联系我flclain@gmail.com
关于数据挖掘的标准化流程有大体有如下几种:
SEMMA
(sample, explore, modify, model, assess used by SAS Institute Inc)
CRISP-DM
(Cross Industry Standard Process for Data Mining as defined by CRISP-DM consortium)
KDD-process
在这里我们简述CRISP-DM流程,以分析一个标准化的数据挖掘过程。
CRISP-DM流程可以从以下的表格中看出主要分为6个步骤
这篇博客主要讲讲project understanding
在这个环节中我们首先要问自己如下几个问题:
1.这个问题到底是什么,我们期望的收益是什么?
这个就是需求细化的过程,我们需要得知这个项目的需求的明确定义,并且明确项目最后期望的收益,比如像“提高5%的转化率”这样的明确定义。
2.解决的方案应该是个啥样?
涉及到相应的工程环节,我们需要能够明确的告诉project owner一些最后的方案的预期表现。
3.我们关于这个领域我们到底知道些什么?
对于项目的深度理解就是建立在对相关领域的理解上的。
假设我们是数据分析师(analyst),我们和项目负责人(project owner)总是会存在各种各样的问题,这些问题存在在沟通交流,缺乏理解和组织上,如下表:
为了细化需求,方便正确的沟通和理解,我们需要确定这个项目主体(determine the project objective)。
当然,重述需求是一种解决的手段,事实上以前工作的时候leader也总是让我复述需求,其让我们确定相互之间理解的一致性。另外一种手段即是使用思维图(mind map)或者认知图(cognitive map)来简要的描述信念,经验,已知的因素和他们如何相互影响。
以一个关于商场的用户的购物篮里商品出现的频度的项目为例,其认知图如下:
其中间灰色的部分就是我们的兴趣所在,不同的箭头表示了不同的因素相互之间的积极和消极的影响。比如用户的支付能力对于购物篮中商品的频度有着积极的影响,而购物的选择机会则对其有着消极的影响。
对于认知图的构造我们有两个注意点:
1.只有直接的影响应该在图中体现
2.各个节点要仔细的选择,要能用“当....更高则....更高”的句式表述时才能把这个点选入。
当认知图被建立的时候,这个问题的主体应该被定义,并且是精确的定义。
一种格式是分为目标(objective),交付(deliverable)和成功准则(success criteria)的表格,如下:
下一步则是估计在这个数据分析项目中的一些挑战。这要求了回顾项目中的可用的资源,要求和挑战。
最重要的资源就是数据和知识,也就是数据库(通常我们dump数据到本地)和专家能提供的背景知识。
基于我们对于领域的探讨和研究,我们可以得到关于这个项目的一系列的明确的或者隐喻的假定(assumption)和风险(risks)的列表。这个列表应该能帮助我们在接下来的数据分析的步骤中确定这些我们已经获得的数据时有用的并且和项目相关的。
值得注意的是期待问题能够被现有的数据解决会导致我们不断更改和“优化”模型,相比考虑是否数据是不是不适合这个问题的可能性。
我们需要仔细的追踪假定并且尽可能早的核实他们。
常规的要求和假定包括:
要求和限制
l 模型的要求(模型需要时可解释的)
l 伦理,法律,政治的因素(不适用像性别,年龄和种族的属性)
l 技术上的因素(解决方案的性能问题)
假定
l 典型性representativeness(取样的问题)
l 信息量 informativeness(数据库中的属性应该表现所有的影响因子)
l 好的数据质量 good data quality(正确 全面 最新的 并且没有歧义)
l 存在的外部因素 presence of external factors(我们假定外部世界不会经常变动)
最终我们要定义我们的分析的目标。当然要把我们呢分析的主体转换成更加技术性的数据挖掘的目标。具体来说就是进一步细化需求和定义指标并简单估计模型。对于模型的选择就不多说了,只是要注意每个模型的适合的方面,因为他们都各自具备优点和缺点。
数据理解(data understanding)
接下来的部分先没写了,会慢慢写下去的