“每个人都相信[高斯分布]:试验者,因为他们认为数学和数学家可对其进行证明;因为他们相信它是通过观察确立的。”—— W. Lippmann

**

高斯分布的重要性

**
统计检验可以分析一组特定数据,以得出更普遍的结论。有多种方法可以做到这一点,最常见的是基于“群体中数据有特定分布”的假设。目前,最常用的分布是【钟形高斯分布(又称“正态分布”)】。该假设是许多统计检验(例如,t检验和方差分析,以及线性和非线性回归)的基础。

在阅读关于高斯分布(“正态分布”)的书籍时,有两个统计术语可能会让人困惑:

在统计学中,“正态”一词是钟形高斯分布的另一名称。但在其他情况下,“正态”一词有很多含义(比如,“无疾病”或“常见”)。

在统计学中,通常将线或曲线周围点的散点称为“误差”。“误差”一词仅指偏离平均值。通常将这种偏离视为由于生物变异性或实验不精确所导致,而非错误。

**

高斯分布的起源

**
许多独立随机因素以相加方式产生变异时,会出现高斯分布。这里举一个例子:

想象一个非常简单的“实验”。你使用移液器,取一些水并称重。移液器理论上每次可以吸取10微升的水,但实际情况是每次吸取9.5到10.5微升的水。如果吸取一千次,并创建一个结果的“频率分布直方图”,将如下图所示:

Python从高斯分布采样n个点 高斯分布检验_正态分布


平均重量为10毫克,相当于10微升水的重量。这样的分布是平坦的,无高斯分布迹象。那么,我们让实验变得更复杂。使用移液管吸取两次,然后称量结果。现在得到的平均重量是20毫克。但你可能会希望这些“误差”在某个时候可以消失。结果可如下图所示:

Python从高斯分布采样n个点 高斯分布检验_中心极限定理_02


每次移液都会产生一个平坦的随机误差。将它们相加后,分布变得不平坦。例如,仅当两次移液基本上朝同一方向出错时,才能获得接近21毫克的重量,这种情况很少见。现在让我们将该实验增加到十次移液,观察下总数的分布情况:

Python从高斯分布采样n个点 高斯分布检验_Python从高斯分布采样n个点_03


这个分布看起来很像理想中的【高斯分布】。重复实验15,000次,会更接近高斯分布。

Python从高斯分布采样n个点 高斯分布检验_权重_04


该模拟演示了一个可以通过数学方法证明的原理。如果你的实验散点有许多来源是相加的和几乎相等的权重,且样本量很大,那么散点会接近高斯分布。

**高斯分布是一种相对理想的数学分布。**很少有生物分布(若真存在)真正服从高斯分布。高斯分布从负无穷大扩展到正无穷大。如果以上示例中的权重真的服从高斯分布,则权重可能为负值(但可能性极低)。由于权重可能是负值,分布不能完全服从高斯分布。但它非常接近高斯分布,因此可以使用假设高斯分布的统计方法(例如,t检验和回归)。

**

统计学的中心极限定理

**

高斯分布在统计学中起着核心作用,因为它包含一种称为“中心极限定理(Central Limit Theorem)”的数学关系。如需理解该定理,遵循该理想试验:

  1. 创建一个已知分布群体(不必为高斯分布)。
  2. 从群体中随机挑选许多相同大小的样本。将这些样本平均值制成表格。
  3. 绘制平均值频率分布的直方图。

中心极限定理表明:

如果你的样本足够大,即使群体不服从高斯分布,平均值的分布也会呈现高斯分布。由于大多数统计检验(如t检验和方差分析)只关注平均值之间的差异,中心极限定理让这些检验即使在群体不服从高斯分布的情况下也能很好地工作。但为确保有效,样本量必须相当大。到底有多大?这取决于群体分布与高斯分布的不同程度。假设群体的分布并非十分不寻常,样本量为10通常就足以使中心极限定理成立。

如果想深入了解理想高斯分布为何如此有用,建议找一些统计学教材学习中心极限定理。