1、统计学理论

1.1 大数定量

定义:
指大量重复某一实验时,最后的频率会无限接近于事件的概率
数据的样本量越大,我们预测和计算的概率就越准确
数据的样本量越小,我们预测和计算的概率就越可能失效
举例:
某产品用户还只有几百人,就用一个模型来预测用户的流失。数据量太小导致用上面模型都很难预测准确
样本量不足时,得出的预测结果是无序的,混乱的
解决方法:

  • 主客观结合:深入业务,从用户的视角思考问题,广泛收集信息,不仅仅从数据中得出结论
  • 想办法提升数据量级:想办法提升公司的业务和数据建设

结论:
对小样本数据得出的结论保持客观的怀疑和观察。并尽可能地在大样本量下进行分析

1.2 罗卡定律

定义:
凡两个物体接触,必会产生转移现象
凡有接触,必留痕迹
之前用于犯罪现场,指犯罪分子一旦来过现场,必会留下痕迹。现在主要用于针对用户行为的埋点和分析

结论:
在分析时,不要忘记尽可能的获取数据、挖掘更多的数据,从蛛丝马迹中找出数据背后的隐藏价值

1.3 幸存者偏差

飞机机翼事件
举例:
总体100万数据,你只取10万数据进行分析,分析出的结果也会更加偏向这10万数据的特征
结论:
各种分析的对象,能取全量尽可能取全量
不能取全量则要选择最能代表总体特征的要不
看别人的分析结果时,也要关注他是如何取样的

1.4 辛普森悖论

定义:

指的是两组分别讨论都满足某一性质的数据,一旦合并计算,会得出完全相反的结论

举例:

大数据分析 简答 大数据分析理论与方法_数据分析


原因:虽然两组数据的总人数相同,但在不同类别上的人数分配上不均匀

大数据分析 简答 大数据分析理论与方法_数据分析_02


这里的点击/曝光 的比例上升,不是因为点击上升了,而是因为曝光下降的更快

结论:
不要在不同的权重下,更不要跨量级比较数据。否则很可能得出离谱结论
要得出正确的结论,首先要保证的是分析的数据在同一量级下

1.4 帕累托最优

一种资源分配的理想状态

大数据分析 简答 大数据分析理论与方法_权重_03


认为仅通过调整分配方式,不增加资源就能提升生产效率

在实际中,常被用来分配渠道预算和业绩奖金

总结

  • 大数定律:时刻对小样本数据得出的结论保持客观的怀疑和观察。并尽可能地在大样本量下进行分析
  • 罗卡定律:用户的一切行为都会留下数据,要尽可能地拿来分析,这样才能找到数据背后隐藏的价值
  • 幸存者偏差:分析时要提取检测取样偏差,所分析的样布要越能代表总体越好
  • 辛普森悖论:一定要确保数据在同一量级和权重下,再进行分析
  • 帕累托最优:就算不投入资源,也总有优化现状的方法

2、分析框架

2.1 一个原则:MECE法则

要求拆解出的各个部分都满足:相互独立、完全穷尽

2.2 方法

2.2.1 时间流程法:
  • 经典AARRR模型(获取、激活、留存、收益、传播)
  • PDCA(计划、执行、检测、处理)
  • 精益创业模型
2.2.2 模型框架法

SWOT法(内部优势、劣势、外部机会、外部威胁)

2.2.3 量化公式法

大数据分析 简答 大数据分析理论与方法_人工智能_04

2.2.4 穷尽要素法

3、量化问题为数据

属性:描述分析对象有哪些特征
绝对值:衡量一件事最后的结果
转化率:衡量一个环节的完成度

4、经典场景的应用

业务诊断:针对现在发生的问题找原因,对应是什么?为什么?
业务增长:需要给出系统量化的业务增长策略,对应怎么做?做多少?

4.1 业务诊断

基于现有的业务模式,进行优化

举例:

8月份某音乐APP的会员收入,相较于7月份下跌了。

大数据分析 简答 大数据分析理论与方法_数据_05


灵活组和各种方法

大数据分析 简答 大数据分析理论与方法_权重_06


基于业务拆解,先有时间流程法拆解出必要的流程环节:曝光,注册,付费三个环节。

新老用户在付费动机上是完全不同的。新会员更多的是体验一下,新会员需要投放拉新才能获得;老会员一般是有需求或者体验好才付费的。而老会员天然活跃在APP上。所以后续分析过程中,两者最好区分出

串联指标,量化业务公式。对于新用户,会员收入=。。。。

不断循环,拆解、量化、取数、分析的整套流程

4.2 业务增长

重新设计业务模式

5 数据分析的作用

数据分析解决的问题:是什么?为什么?怎么做?做多少?

是什么?

用数据去量化企业当前的经营现状或者业务事实

大数据分析 简答 大数据分析理论与方法_数据_07


为什么?

看数据-分析原因怎么做?

大数据分析 简答 大数据分析理论与方法_大数据分析 简答_08


沟通时,确认问题:

大数据分析 简答 大数据分析理论与方法_人工智能_09


统计口径!

收集数据:

大数据分析 简答 大数据分析理论与方法_数据_10