1. 为什么认为世界上的大部分问题,比如一个地区小麦的亩产量,一个城市的学生的中考成绩等问题符合正态分布?

个人对答案的理解并不非常清楚,但有一点认识是,正态分布是一种最常见和最具有统治力的自然规律。是上帝之手。就像这个社会上的大多数人都是普通的螺丝钉,每天为吃喝拉撒生老病死孩子上学对象不好而消耗者精力,而真正的顶层和底层都超越了这种界限。爱上一个不回家的人,搭上一辆等不来的车,是宿命。天空之城在哭泣。

另一方面,万物皆是偶然造成,一个个的偶然加在一起就构成了一种结果或整体。偶然的某种可加性、复杂性和正态分布的结果相关。

2. 为什么均值的抽样分布的方差(标准误)要除以样本量n?

更简单点说,也就是说抽样分布的方差是怎么变小的?

我有1、2、3、4四张纸牌,四张牌的均值是2.5,每次抽一张,每张牌被抽中的概率是1/4。那么在计算方差时,也就是1、2、3、4四张纸牌对均值2.5的偏离程度,4个数字起到了一样的权重。在这4个数字中,很明显1和4对均值的偏离程度大,因此相对于2和3,对方差大小起了更大的作用。

那么如果每次有放回的抽2张呢?总共有4*4=16种组合!

分别是(1,1)、(1,2)、(1,3)、(1,4)、(2,1)、(2,2)、(2,3)、(2,4)、(3,1)、(3,2)、(3,3)、(3,4)、(4,1)、(4,2)、(4,3)、(4,4)的组合。

但是我们是要的均值的抽样分布呢,于是我们得到以上16个组成的每种情况的均值,分别是:1、1.5、2、2.5、1.5、2、2.5、3、2、2.5、3、3.5、2.5、3、3.5、4!

计算一下均值还是2.5!

但是情况变多了,从4种变成了16种,方差呢?方差变小了!

在用于计算方差的16个数字中,最偏离均值、最影响方差大小的极端值1和4,所占的权重变小了!从原来的各占四分之一变成了各占十六分之一!最影响方差大小的因素所占的权重经过均值的抽样后变小了!他们对方差的影响变小了!所以方差变小了!

具体为何要除以样本量n?这需要公式论证。知道变小了很重要。

3. 柱状图等要加误差线是加均值的抽样分布的标准误还是样本的标准差?

好像存在争议。个人理解用柱状图等图形展示我们所获取的样本数据的根本目的,不只是为了展示我们的样本,更是想要在某种程度上表达和试图展示样本背后所代表的、某种假象的总体(感觉只是一种假想的总体,事实上根本不存在)的某种情况。

那么对于误差线到底是样本的标准差还是均值的抽样分布的标准误,更能代表整体,或者进一步说,更能代表整体的方差?

个人感觉还是样本的标准差更接近总体的标准差。但鉴于实际过程中,大家一般分析组间差异的显著性(方差分析),而进行这种分析要根据均值的抽样分布的标准误来进行,所以通常是使用均值的抽样分布的标准误来做误差线。另外一个方面,就是因为均值的抽样本部的标准误要用样本的标准差除以样本量n, 因此标准误更小,看起来更好看(仅仅是看起来而已)。

但个人的体会加上参考一些网上资料,感觉虽然大部分的用法如此,但添加这个标准误的误差线并不是完美的,至少在反应、推测、展示、预估总体情况上的表达是不妥的,主要侧重还是在统计上(样本均值的抽样分布)的表达。