数据分析引言

  • 数据分析就是仔细推敲证据
  • 基本流程:
  1. 确定:确定问题,了解问题。
  2. 分解:分解问题和数据,使其成为更小的组成部分。
  3. 评估:对前两步了解到到的情况作出各种结论。
  4. 决策:把结论组合在一起得出决策。
  • 明确心智模型:
  • 根据已有数据明确你知道的和不知道的。
  • 从一开始就务必要基于正确的假设建立模型,并且要做好准备,一旦所得到的的数据有违你的假设,就要立即回头重新详加思考。

实验

  • 想要找到销量下滑的原因,需要将数据进行细分,排除影响因素。比如不同区域的咖啡销量数据放在一起看,不容看到销量降低原因,拆分后发现是富人区销量没有变,穷人区销量降低导致将整体销量拉低,之后可以针对穷人区策略进行改进。
  • 在进行正式实施前,需要有一个实验来验证策略到底是否可行。
  • 进行实验时需要有一个控制组用来进行对比。没有控制组就意味着没有比较,没有比较就意味着无法对所发生的情况进行判断。
  • 控制组:一组体现现状的处理对象,未经任何处理(也称为对照组)。

最优化

  • 主要介绍在生产和销售小黄鸭/塑胶鱼之间找到一个最优方案。
  • 先列出可以控制的和无法控制的条件。
  • 决策变量就是我能控制的因素。
  • 最优化问题:为了实现一个目标而改变变量的数值,这里目标就是利润最大化。
  • 目标函数:c1x1+c2x2=P

数据图形化

  • 优秀图形的一些特点:
  • 展示了数据。
  • 做了高明的比较。
  • 展示了多个变量。
  • 散点图是探索性数据分析的奇妙工具。分析师喜欢用散点图发现因果关系,即一个变量影响到另一个变量的关系。

假设实验

  • 主要基于一个生产手机皮肤公司依赖对应手机厂家是否发布新机来指定生产策略。
  • 找到各种变量之间的相关性,是正相关还是负相关,制定因果关系网络。
  • 证伪:剔除无法证实的假设。
  • 满意法:选出第一个选项,其他不做处理。
  • 问题:当人们在未对其他假设进行透彻分析的情况下选取某种假设时,往往会坚持这个假设,即使反面证据堆积如山,也往往会视而不见,
  • 证伪法则让人们对各种假设感觉更敏锐,从而防止掉入认知陷阱。
  • 只要证据能够帮助你按照强弱程度对假设进行排列,他就具有诊断性。

贝叶斯统计

  • 介绍针对结果为阳性的前提下,感染疾病的概率。
  • 条件概率:以一件事发生为前提的另一件事的发生概率。
  • 条件概率标识:P(L|+),P代表概率,|左边为条件,|右边为在左边的前提下发生的事情。
  • 基础概率=事前概率。
  • 当分不清概率计算时,可以列举1000个人进行实际划分,这样换算为整数更方便计算。
  • 贝叶斯公式:P(L|+) = P(L)P(+|L)/(P(L)P(+|L) + P(-L)P(+|-L))。

主观概率

  • 我们对事情的表述中通常包含许多代表概率的不准确的词,比如有可能、有机会、不可能等。这样我们并不能对所有事情的概率大小进行判断,所以我们将这些概率词汇进行量化,换算为具体的数字,比如百分比。
  • 主观概率:用一个数字形式的概率来表示自己对某事的确认程度。主观概率是一种向别人精确传达你的想法和信念的富有启示性的表达方法。
  • 标准偏差度量的是典型的分析点与数据集平均值的差距。
  • 用贝叶斯规则求主观概率的根本在于找出在假设成立的条件下,证据出现的概率

启发法

  • 如果全面评价一件事情需要的成本过大,可以从其中取一两个变量,然后根据这些变量对系统做出结论。
  • 启发法:
  1. (心理学定义)用一种更便于理解的属性代替一种难理解的、令人感到困惑的属性。
  2. (计算机科学定义)一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。

直方图

  • 直方图可以直观的体现出数据的分布和趋势。

回归

  • 什么时候使用散点图
  • 这是一种多方面展现数据特点的快捷方法。只要你的数据涉及两种变量,就该考虑使用散点图。
  • 散点图的根本在于虚招变量之间的因果关系。
  • 回归线就是最准确的贯穿平均值图中的各个点的直线。
  • 回归线历史意义:高尔顿对父子身高的研究,他称为“向平均数回归”。

误差

  • 机会误差:实际结果与预测之间的偏差。又称为偏差。

关系型数据库

  • pass

整理数据

  • pass