一、总体标准偏差和样本标准偏差
假设我们测量了变量,测得的结果是。令是它们的算术平均值,是的真实值。
我们使用标准(偏)差(Standard Deviation)来度量数据分布的分散程度。标准差越大,数据分布越离散,反之越集中。
我们在小学/初中学过标准差的计算公式其中是总体的平均值。但是物理实验中采用的是其中是样本的平均值。那为什么分母变成了呢?包括我在内的很多人都不理解。
实际上,叫做总体标准偏差(Population Standard Deviation),而叫做样本标准偏差(Sample Standard Deviation),是两种不同的标准偏差。它们的区别何在?总体标准偏差就是你已经知道了所有的数据,比如班级的成绩,然后你要计算它的离散程度。这在物理测量当中是不可能出现的,因为你可以测量无限次。样本标准偏差就是你要用一些数据(样本)来估计整体情况,相当于以偏概全。物理实验中就是这样一种情况,你测得一组数据,然后用这组数据近似表示真实值。在这种情形下,如果我们测得一组数据,用总体标准偏差来表征离散程度的话,就出现问题了:总体平均值,也就是真实值,我们是不知道的。那我们用代替,就会导致:我们计算的是围绕样本的平均值的离散程度,而不是围绕真实值的离散程度。对于一组数和一个变量,令,这是一个开口向上的二次函数,在的时候取得最小值。也就是说,。这就意味着,我们低估了数据的离散程度。我们需要将分母改为,来稍稍增大偏差的值。
那为什么是呢?纯统计学的严格证明颇为复杂,但我们可以用一种别样的思考方式。现在我们获得的样本有个测量结果,就是有条独立的信息。我们已经知道,如果再知道,那自然就知道了。现在我们把这些偏差的平方加起来,应该只有条独立的信息,所有除以才说得通。专业的名词叫做有个“自由度”。
其实到这里你也许还是没有理解。是的,我也没有理解。在系统学习统计学之前是不可能理解的。但是很多人对采用作为分母的说法是“约定俗成的”,即用更符合统计规律。所以我们也不用在乎那么多了,记住在物理实验的时候用作为分母来算标准偏差就好了。
最后,我想说的是,当的时候,即测量无限次,那就是,和的比值就会趋近于,这时总体标准偏差和样本标准偏差就是一回事了。
二、标准偏差和标准误
还是讨论物理实验中的问题。我们刚才讲了标准偏差(Standard Deviation),它的公式是关于分母为什么是就已经够让我们头疼了,现在又冒出来一个标准误(Standard Error of Mean),这玩意又是什么呢?
标准误的含义用来估计样本平均值和真实值有多少差异的,用表示。例如,,,那么测量结果就写成。
对于标准偏差和标准误的区别,知乎上有一个我感觉很好的解释:
举个栗子,现在我们测量了次,分为组,每组个数取一个平均值,那这个平均值的标准偏差就是这个数据的标准误。
标准误的计算公式是
为什么要除以呢?我们考虑的标准偏差,而是相互独立的,所以它们的标准偏差都等于,其中是的标准偏差。那么,即,。
本文到这里就结束了,还是留下了太多没有解决的问题,以后慢慢补上吧,总之物理实验直接套公式就行了,不用操那么多心~