概述

  1. 在本章中,我们按结构—逻辑—功能的顺序来展开论述。我们先定义了何为正态分 布,并描述它们是怎样产生的,然后回答它们为什么这么重要。
  2. 我们将应用分布知识,解 释为什么好的东西总是以小样本的形式出现,检验哪些效应是有显著性的,解释六西格玛 (Six Sigma)过程管理为什么有效。然后回到逻辑问题,追问如果我们将随机变量相乘 而不是相加会发生什么,结果是获得对数正态分布(lognormal distribution)。
  3. 对数正 态分布可以包括更大的事件,且均值不对称。由此,我们可以推导出,多重效应会导致更大的不平等,这个深刻的结论对提高工资的政策如何影响收入分配有重要的意义。

结构:正态分布

  • 均值之外的第二个重要统计量是方差,可以衡量一个分布的离散程度,也就是数据与均值之间距离的平方的平均值。
  • 如果分布中的每个点具有相同的值,那么方差等于 零。如果一半数据的值为4,一半的值为10,那么平均来说,每个点与均值的距离为3、 方差等于9。分布的标准差是另一个常用的统计量,等于方差的平方根。
  • 可能的分布集合是无限的。我们可以在纸上任意画出一条线并将它解释为概率分布。 幸运的是,我们经常遇到的分布一般都属于有限的几种类型。最常见的分布就是正态分布,也就是钟形曲线,如图5-1所示。

java 正态分布图 abscissa 正态分布_标准差

图5-1 正态分布及其标准差

逻辑:中心极限定理

非常多的现象都表现为正态分布:动物和植物的体型大小,学生在考试中的成绩,便利店每天的销售额,海胆的寿命,等等。中心极限定理表明为什么对随机变量求和或取均 值会产生正态分布。

中心极限定理

只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任何一小部分随机变量贡献了大部分变差,那N ≥20个随机变量的和就近似一个正态分布。

功能:应用分布知识

我们对正态分布的第一个应用将揭示:为什么罕见结果在规模小的群体中更常见,为什么最好的学校往往规模较小,为什么癌症发病率最高的郡县人口较少。回想一下,在一个正态分布中,95%的结果位于两个标准偏差内,99%的结果位于三个标准偏差内,根 据中心极限定理,一组独立随机变量的均值将是正态分布的(当然方差要满足前述要求)。由此可见,我们可以非常确信:考试分数的总体平均值也将是正态分布的。然而, 随机变量平均值的标准差并不等于变量标准差的平均值,而且总和的标准差也不等于标准差的总和。相反,这些关系取决于总体大小的平方根。

平方根法则(The square root rules)

N 个相互独立的随机变量,都具有标准差σ ,对这些随机变量的值的标准差σ

μ 和对这些随机变量总和的标准差σ Σ ,分别由以下公式给出:

java 正态分布图 abscissa 正态分布_正态分布_02

 

均值的标准差公式表明,大的总体的标准差要比小的总体的标准差低得多。由此可以 推断,在小的群体中应该会观察到更多的好事和更多的坏事。事实上我们确实观察到了:

最安全的居住地是小城镇,但最不安全的地方也是小城镇;肥胖率和癌症发病率最高的那些郡县的人口较少。这些事实都可以通过标准差的差异来解释

检验显著性

  • 我们还可以利用正态分布的规律来检验各种平均值的显著性差异。如果经验均值与假设均值之间的偏差了超过两个标准差,那么社会科学家就会拒绝这两种均值相同的假设。 现在提出这样一个假设,即巴尔的摩的通勤时间与洛杉矶的通勤时间相同。假设数据表明,巴尔的摩的通勤时间平均为33分钟,而洛杉矶为34分钟。如果这两个数据集的均值标准差都是1分钟,那么我们就不能拒绝巴尔的摩和洛杉矶两地通勤时间相同的假设。虽然二者的均值不同,但只存在1个标准差。如果洛杉矶的平均通勤时间为37分钟,那么我们就会拒绝这个假设,因为均值之间相差4个标准偏差。
  • 但是,物理学家可能不会拒绝这样的假设,至少当数据来自物理实验时不会。物理学家采用更严格的标准,因为他们拥有更大的数据集(原子的数量远远超过了人的数量), 数据也更“干净”。物理学家在2012年证明希格斯玻色子(Higgs boson)存在时所依据的证据,在700万次试验中随机出现不到一次。
  • 美国食品药品监督管理局(FDA)所使用的药物批准程序也包含了显著性检验。如 果一家制药公司声称自己研发的某种新药可以减轻湿疹的严重程度,那么这家公司就必须进行两项随机对照试验。为了构建一项随机对照试验,该公司组织了两个相同的湿疹患者 群体。一组接受这种药物治疗,另一组则只使用安慰剂。试验结束后,比较平均严重程度和平均副作用发生率。然后,该公司还要进行统计检验。如果药物显著地缓解了湿疹症状(以标准差衡量)且没有显著地导致副作用,则可以批准该药物。美国食品药品监督管理局并没有使用严格的双标准差规则。治疗某种致命疾病且同时只会导致轻微副作用的药物比能够缓解真菌导致的灰指甲症状但同时却会导致骨癌发病率高于预期的药物的统计标准更低。美国食品药品监督管理局还关注统计检验的效力,也就是测试能够证明药物有效的概率。

六西格玛方法

  • 这里要讨论的正态分布规律的最后一个应用是六西格玛方法,我们将说明正态分布是如何通过六西格玛方法为质量控制提供有效信息的。六西格玛方法是摩托罗拉公司于20世纪80年代中期提出的,目的是减少误差,该方法根据正态分布对产品属性进行建模。试想这个例子:一家企业专业生产制造门把手所用的螺栓。它生产的螺栓必须天衣无缝地与其他制造商生产的旋钮组装在一起。规格要求是螺栓直径为14毫米,但是任何直径介于13毫米与15毫米之间的螺栓也可以接受。如果螺栓的直径呈正态分布,均值为14毫米,标准差为0.5毫米,那么任何超过两个标准差的螺栓都是不合格的。两个标准差事件发生的概率为5%,这个概率对于一家制造企业来说太高了。
  • 六西格玛方法涉及缩减标准差的大小从而降低生产出不合格产品的可能性。各企业可以通过加强质量控制来降低误差率。2008年2月26日,星巴克超过7 000家门店停止营业3小时,目的是重新培训员工。与此类似,航空公司和医院所用的检查清单也有助于减少变差。 7 六西格玛方法降低了标准差,这样即使出现了6个标准差的误差,也可以避免出现故障。在生产螺栓这个例子中,就要求必须把螺栓直径的标准差减少至1/6毫米。而6个标准差的含义是,误差率仅为十亿分之二。实际使用的阈值假设1.5个标准差的出现是不可避免的。因此,一个六西格玛事件实际上对应于一个四个半西格玛事件,这时允许的误差率大约为三百万分之一。
  • 在六西格玛方法中应用中心极限定理(即隐含的加性误差模型)是如此微妙,因而几乎没有什么人注意到。螺栓制造企业不可能精确地测量每个螺栓的直径,它可能会抽样几百个,并根据这样一个样本来估计均值和标准差。然后通过假设直径的变差源于多种随机效应的总和,例如机器振动、金属质量变化以及压力机温度和速度的波动,就可以利用中心极限定理推断出正态分布。这样一来,这家螺栓制造企业就可以得出一个基准标准差,然后花大力气去降低它。

对数正态分布:乘法冲击

中心极限定理要求我们对随机变量求和或求平均值,以获得正态分布。如果随机变量是不可相加而是以某种方式相互作用的,或者如果它们不是相互独立的,那么产生的分布就不一定是正态分布。事实上,一般情况下都不会是。例如,独立随机变量之间的乘积就不是正态分布,而是对数正态分布。 对数正态分布缺乏对称性,因为大于1的数字乘积 的增长速度比它们的和的增长速度快;