统计起源的故事还得从达尔文发明进化论说起。达尔文提出进化论的重要证据之一就是雀鸟的喙(也就是鸟嘴)的变化,在不同的环境下,根据自然选择适者生存,这些鸟嘴的形状会不一样。

python 频率统计分布直方图 python统计频数分布_正态分布

鸟嘴的变化体现出自然选择,适者生存

但是达尔文的进化论缺乏的关键证据就是我们有生之年几乎无法观测到新物种的诞生(这是因为自然选择往往发生的很慢,对比之下人工选择就快的多了,比如培育杂交水稻和金鱼之类的,可以很快选择出新的种类)。达尔文有个表弟高尔顿,很喜欢把数学跟生物搞到一起。高尔顿拉着小伙伴卡尔.皮尔逊和威尔登搞了一个生物统计计划,从统计的角度给进化论提供证据。假使我们可以把一个地区的所有雀鸟都抓来观察,按照鸟嘴的长度进行分组作为横轴,把每组的雀鸟数量(频数)作为纵轴,就得到了频数分布图,概率可以定义为频数分布图中的比例。例如图中喙长大于6.5 cm的一共有3个格子,而总共有16个格子,那么随机抽取一只雀鸟得到喙长大于6.5 cm的概率就是3/16。

python 频率统计分布直方图 python统计频数分布_python 频率统计分布直方图_02

X是鸟嘴的长度,f为对应频数,部分面积与总面积的比例就是概率

另外,如果用曲线来近似,就成了我们常见的分布图,在分布图中部分面积与总面积的比例仍然是概率。他们认为个体不应当是研究对象,总体的随机分布才应该是研究对象。

python 频率统计分布直方图 python统计频数分布_python 频率统计分布直方图_03

X是鸟嘴的长度,f为对应频数,部分面积与总面积的比例就是概率

虽然我们在短时间内无法观测到进化新物种的发生,但是如果我们观察到生物的某个特征的分布发生了变化,比如鸟嘴的长度的分布发生改变,比如左右移动(这意味着平均数减少或增加)或者形状改变,那么也给进化论提供了统计上的证据。

python 频率统计分布直方图 python统计频数分布_数据_04

分布形状的变化,上图为正态分布,左图这种为正偏态,右图为负偏态

`