在数据挖掘工作中,整体的流程是固定的,即业务需求调研、目标明确、数据提取分析、特征工程、构建模型、模型评估以及结合应用这七个部分。其中数据分析是整个环节中最重要的一环,是后续算法模型的搭建成功贴近业务的基础。那么如何做好数据分析,方法如下:
一.先攻克业务
业务是数据分析的基础,如果不熟悉业务掌握在多数据分析方法,那也如光手抓刺猬无从下手。
1.掌握业务第一是要掌握产品的业务流程、比如我们是做金融的,流程包括授信、用信和还款三大流程,以及每个流程有可以细分为访问页、确认借钱、平台校验、风控等。而对于业务的理解,不要一开始就贪大求全,要着眼于一条业务主线,然后再去拓宽其他业务线。
2.算法工程师不能将所有的目光都投在算法模型的构建上,除了主业务流程,最好还能深入到表结构,去了解各个表之间的关系,从源头清楚主要数据结构,以及他们之间的关系。这样在后期建模时候,不会因为对数据的把控不足而导致从头再来。
二.建立思维模式
数据分析的两种推理模式,一种是归纳,一种是演绎。这也是麦肯锡思维当中很经典的两 个方法,工作中所有的问题,都可以用归纳或者演绎的形式进行拆分,我喜欢把这个过程称为 “解构”。 能够快速定位业务问题,提升分析效率。
1.结构化思维
归纳其实就是把复杂问题分解成多种单一因素的过程,并且将这些因素加以归纳和整理,使之条理化、纲领化。这个过程犹如抽丝剥茧,将一团乱麻理地条条顺顺。构建结构化思维可以参考《金字塔原理》如何练习结构化思维,这其中会运用一个很重要工具,那就是金字塔模型。
根据《金字塔原理》,“任何事情都可以归纳出中心论点,由中心论点出发,可由三至七个论 据支撑,每个一级论点可以衍生出其他的分论点。”如此发散开来,就可以形成以下的金字塔 结构思考方式。但是在你还没有掌握这种结构化思维方式时,直接用这种思考方式是有一定难度的。这时候就 可以采用金字塔原理中的 MECE 法则去思考结构。具体的操作方式是:
A. 尽可能列出所有思考的要点
B. 找出关系,进行分类。
他的原则是论点之间相互独立,不重叠;论据穷尽划分,不遗漏。 举个例子:
现在有一个线下销售的产品。我们发现8月的销售额度下降,和去年同比下降了20%。我想先观察时间趋势下的波动,看是突然暴跌还是逐渐下降。再按照不同地区的数据看一下差异,有没有地区性的因素影响。我也准备问几个销售员,看一下现在的市场环境怎么样,听说有几家竞争对手也缩水了,是不是这个原因。
用结构化思维梳理,就是:用这种方式思考,能确保思考的点成体系,逻辑严谨,要素相互之间不凌乱不打架,思考的点 都穷尽。长期练习这种方法,不仅更容易找到逻辑结构,也更容易培养你的结构化思维。具体可以阅读书籍:《金字塔思维》。
2.假说演绎思维
以情况为起点的推理方法是归纳推理,以规则为起点的推理方法可以称之为演绎推理。
比如:某自营电商网站,现在想将商品提价,让你分析下销售额会有怎样的变化?首先可以确定销量会下降,那么下降多少?这里就要假设商品流量情况,提价后转化率的变化情况,然后根据历史数据汇总出销量下降的情况,从而得出销售额的变化情况。 
假设商品提价后,销量一定会下跌,问题是销量下跌多少?
首先假设流量不会有变化,流量和渠道营销正相关,商品价格影响转化率,那么现在确定转化率的波动。
找出平时的转化率(譬如为 20%),预估提价后的转化率变化。假设各类型用户对价格敏感度不同,那么将用户划分忠诚 XX、普通 XX、羊毛 XX……
不同用户层次数量不同,反应不同。忠诚用户转化率变化极低,羊毛几乎不会转化.…这些数据可以凭借经验做出假设,最后汇总。
具体的变化情况都可以根据过往的数据来拟合,统计学上也有一些科学的预测模型,后面讲数 理统计知识时会有涉及。
假设先行就是以假设作为思考的起点,先提出问题,然后用 MECE 原则梳理关联因素间的结构 关系。
三.总结
归纳和演绎的思维是数据分析初期必备的,面试考察逻辑思维也无非是这两点。实际情况中可针对不同的项目要求进行组合应用。在经过一定阶段的训练后,可以帮助提升业务熟悉程度,完成业务的初始积累后,后续的分析过程中就可以逐步减少拓展推理的层级及组合,逐步提升问题原因定位的效率。
(未搬运完全,因为我觉得这些基础足够新手去学习了)