什么是Bootstrap
抽样分布描述从总体的随机样本中获取统计量的每个可能值的可能性;换句话说,该大小的所有随机样本中有多大比率将得到该值。Bootstrap是一种通过抽取多个样本来估计抽样分布的方法,这些样本中包含单个随机样本的替换内容。这些重复样本称为重新采样的样本。每个重新采样样本的数量与原始样本相同。Bootstrap是非参数统计中一种重要的估计统计量,并可进行统计量区间估计的统计方法,也称为自助法(Minitab中翻译为自举法)。
“Bootstrap”来自短语“to pull oneself up by one’s bootstraps” (源自西方神话故事“TheAdventures of Baron Munchausen”,男爵掉到了深湖底,没有工具,所以他想到了拎着鞋带将自己提起来)。Bootstrap在英语中作为一个名词的话,其的意思是“拔靴带”,也就是通过自身的力量,自己把自己抬起来。“通过自身的力量”——这是Bootstrap方法的核心所在。
什么情况下使用Bootstrap方法?
1) 可以使用Bootstrap方法计算参数(均值、中位数、和、标准差或方差)的置信区间,或对参数进行假设检验。这种方法不需要假设观测值的分布模型(传统的假设检验要求正态分布不同)。
2) 当观测值分布未知或用户还没有学到观测值分布的概念时,这种方法就会变得很实用(Minitab在19版本中引入此方法,但是在教育版本Minitab Express一直有这个功能)。
Bootstrap方法的基本思想
1)采用重复抽样技术从原始样本中抽取一定数量(可自己给定,一般与原始样本相同)的样本,此过程允许重复抽样(有放回)。
2)根据抽出的样本计算待估计的统计量T。
3)重复上述N次(一般大于1000),得到N个统计量T。
4)计算上述N个统计量T的指标(均值、中位数、和、标准差或方差),以此估计统计量T的指标。
Minitab中的Bootstrap应用
在2019年6月5日发布的Minitab 19版本中,引入Bootstrao方法。
举个例子:从一学校中随机抽样调查20名学生的身高,打算通过这20个人的身高估计该学校所有学生的身高(对20个人编号,身高数据如下表)。
这20个人的身高数据构成的样本,我们称为观察样本。
根据Bootstrap的基本思想,我们有放回的重复抽取1000次,每次的取样量为20(每个重新采样样本的数量与原始样本相同),得到1000个新的样本。由于是有放回的取样,那么在每次取样中,并不是编号1-20的每个人都可能被取到。如前5次的取样结果如下,在第3次取样中,连续4次取到编号为10的学生。
我们利用Minitab模拟完成此1000次取样,操作如下。
Minitab结果解释
在C2列,我们可以得到1000个均值,这1000个均值就是1000次取样的均值。
在以上输出结果中,我们可以看到1000次取样均值的分布直方图,大致呈正态分布(当然,我们也可以对C2列做正态性检验)。
“观测到的样本”表中反映的是20个学生的身高信息,比如说这20个学生的身高均值为170.10cm。
在这里,我们更加感兴趣的是“均值的Bootstrap样本”表,在这里,我们得到均值的95%置信均值(167.900,172.250)。这是非常有意义的,尤其是当你的数据非正态,甚至是分布未知的时候。当然除了均值的置信区间,我们还可以算得方差、标准差等其他统计量的置信均值。
小结
使用Bootstrap方法除了可以来计算未知分布统计量的置信区间,我们还可以用来进行假设检验(Minitab中称为“随机化检验”)。