1引言


《概率论》是一门理工科大学生必修课程,学统计学的同学们更是绕不开这门课程以及相关的高级课程,例如《高等数理统计》,《多元统计分析》等等。在学习这些课程的同时,大家是否感觉晦涩难懂,又或是感觉简单轻松但就是知识碎片,难以形成完成的逻辑框架?


本文ZZ与大家一起白话统计学的发展历程,以符合常理的顺序描述这一神奇学科的进程,让大家知其然,并探其所以然。

特别提示:本文不是科普文,不会出现一些纯理论的知识。本文是个人思考后输出的合乎逻辑的统计学发展历程,旨在为广大对统计学感兴趣的同学提供一个顺滑的学习路线和一个整体的逻辑框架。

统计学(1)|白话统计学发展(含统计学必知必会)_数据


2何为统计?

首先,对于统计的这个话题,需要明确我们在讨论什么?

熟悉ZZ的知友知道,ZZ解释概念都是一个套路,就是顾名思义。顾名思义,统是总括,概括、计是计算,合在一起就是概括的计算。所以,统计是指对某个事件进行概括性的计算,以得出支撑我们结论的统计数据。

那么,概括性的计算都包含什么呢?这个问题相信大多数同学都能说上均值,方差,最大值,最小值,中位数,分位数;甚至一些衍生的变异系数,协方差,偏度,散度等等,下面我们就从最简单的均值和方差说起,来带入这统计的世界。

3统计的发展历程

我们先用一张图片展示一下,统计学的发展历程,然后逐一叙述:统计学(1)|白话统计学发展(含统计学必知必会)_数据_02

1)很久很久以前,古代人们就掌握了计数的技术,主要用于记录食物的数量。但是随着人们智慧的增长,人们不再局限于计数,对于记录下来的数据,总有人会去探索一些有趣的事情。其中最简单的一种计算就是均值,计算一组数据的平均数来衡量这组数据的平均水平,是多么的自然而和谐。

2)有了均值来衡量平均水平,那么人们自然会关注个体与平均水平的差异,这是人性使然。例如当你知道你所在行业的平均月工资是40k,你会立刻和自己比较,发现自己是4K,在质疑这个平均水平的同时,你会想到居然有同事76K?这个行业的工资水平可以差异这么大?那么差异到底有多大呢,我们如何衡量这个差异呢?方差应运而生,基于均值来衡量整体水平之间的差异程度

3)有了均值和方差,我们需要总结一下这时的成果;存在某个事件的一组记录数据,我们可以计算统计值——均值和方差来分别衡量这组数字的平均水平和差异程度。但是总是说一组数据不方便,这时我们需要定义一些名词:事件,整体和个体。其含义也无需多说。

4)随着统计学继续发展,那么对于某个事件,我们使用类似均值,方差等等的指标来衡量这个事件某方面的水平。人们很快发现,我们之前定义的整体只是当前收集到全部数据,对于某个事件我们不可能穷尽搜集到它的所有数据,这所有的数据我们称之为总体。之前定义为整体的那部分数据称为这个总体下的一份样本

5)样本的数据表现并不稳定,但是在多次试验的情况下,事件的某种情况发生的频率趋于稳定,结合极限的概念,我们给总体中事件出现的频率一个定义:概率。进而为了理解某个事件的规律,我们希望穷尽事件所有可能的概率,因此我们需要知道总体数据大概以什么样的方式呈现。

为了刻画总体的模样,分布又应运而生,即事件所有可能的概率分布。有了分布的概念,随着人们研究各种不同事件的分布形式,进化出0-1分布(伯努利分布)、二项分布,泊松分布,指数分布,正态分布等等,正态分布的发现是一个里程碑式的事件。

6)对于总体这种充满玄学的东西,人们一般很难弄到,只能通过有限的一份或几份样本数据来研究总体的分布。样本我们可以很方便的计算频率,但是频率能估计出概率吗?伯努利说可以的,并提出了大数定律:样本够大,频率趋近概率,那么好,这个事能成。

7)我们关注总体的分布,其实主要关注总体的一些统计特征,即前面提到的均值,方差,比例等等,自然而然我们研究样本的这些统计特征去刻画总体。我们称样本的这些统计特征为统计量,总体的统计特征就是参数

8)由于得到样本的过程(抽样)是一个随机过程,那个样本的统计量也是一个变量,区别于总体的参数是一个定量;研究变量我们还是要看它的分布,我们称这个分布为抽样分布

9)最开始就是研究最简单样本均值;我们自然会想不同分布的总体的样本的均值是什么分布呢?棣莫弗说,不用Battle了,是正态分布,经过了100多年的不断证明之后大家服了,命名为棣莫佛-拉普拉斯定理,还有一个别名:中心极限定理(概率论中首席定理)诞生。

10)后来人们发现抽样数量的大小,样本均值的抽样分布会有一些差异,小样本是一个比正态分布有点差异的分布,我们称之为t分布,大样本下还是正态分布。进而分析样本方差的时候,我们又定义了卡方分布F分布(样本方差可以转化为卡方分布)。

11)研究到这里,我们已经可以通过样本的统计量来刻画总体参数了。当然这是从理论上严谨的推导的,另一种获取统计量的分布的方式是自助法,那是另辟蹊径,这里不详细叙述了。既然样本可以刻画总体的分布,那么人们应用这些理论,开始了假设检验的理论研究。

12)在熟悉了以上这些理论的基础上,假设检验其实是一个很经典的数学思维:你说怎么滴就怎么滴(原假设);按照你认为的理论,事件会怎么发展呢(统计量的抽样分布)?实际中又是怎么样(统计量实际值-计算P值)?实际与假设是否一致(P值和置信水平)?依据以上步骤得出可信结论。

13)统计学发展至此,已经覆盖大部分日常生活中的应用,ZZ叙述的这个发展过程,希望指引广大爱好的统计学的同僚更加顺滑的学习统计学知识。

4统计学必知必会

如果大家认可以上的统计学发展过程,这其中的必知必会就呼之欲出:

  • 均值、方差、最大值、最小值、中位数等统计值的概念;
  • 事件、总体、样本、个体的概念;
  • 频率、概率、分布等概念,了解常用分布,如二项分布、正态分布等的分布函数和它们的均值和方差、以及衍生的独立、联合分布和边缘分布等概念;
  • 大数定律、统计量、抽样分布的概念,了解常见的抽样分布,如卡方分布、t分布和F分布;
  • 中心极限定理及其应用假设检验。

5小结

以上统计学发展和必知必会覆盖大部分日常统计工作,也涉及了应用最广范的假设检验,但是本文旨在为学习统计学的同学提供一个指引,对于其中具体理论和实际应用并未多涉及。后续,ZZ将继续完善统计学的相关理论,并通过一篇A\B测试的理论篇,将以上知识串起来应用,希望关注的同学们不要错过这些精华。

P.S. 统计学中抽样方法和贝叶斯理论不在这套理论框架内,暂未涉及,如有兴趣,敬请期待。