重复抽样与不重复抽样的抽样平均误差大小?

 突然发现自己掉进了一个大坑......一开始想要搞明白重复抽样与不重复抽样的平均平均误差大小?一想什么鬼,重复抽样、不重复抽样、平均误差大致明白,可是结合起来是什么?后来查了查发现,抽样平均误差又是什么?经过一番查找,大致对抽样有了一点点的了解,但其中仍存在许多问题没有解决;得到了现阶段自己所需要的,及时出坑.....


本文介绍:

  • 抽样的基本概念
  • 抽样误差

目录

  • 1. 抽样的基本概念
  • 1.1 全及总体与样本总体
  • 1.2 全及指标与抽样指标
  • 1.3 样本容量与样本个数
  • 1.4 重复抽样和不重复抽样
  • 2. 抽样误差
  • 2.1 抽样误差
  • 2.2 影响抽样误差的因素
  • 2.3 抽样平均误差
  • 2.3.1 抽样平均误差的作用
  • 2.3.2 抽样平均误差的计算
  • 2.3.2.1 样本平均数的抽样平均误差
  • 2.3.2.2 样本成数的抽样平均误差
  • Reference

1. 抽样的基本概念

1.1 全及总体与样本总体

全及总体是我们所要研究的对象,又称母体,简称总体;是具有某种共同性质的许多单位的集合体

样本总体则是我们所要观察的对象,又称子样,简称样本;样本总体是从全及总体中随机抽样出来的,代表的是全及总体部分单位的集合体

  对于某一次抽样,全及总体是确定的,而样本总体是不确定的,因为由一个全及总体能够随机抽样出许多样本总体;

注意:为求统一,下文中出现的总体即代表全及总体;出现的样本则代表样本总体,即某次抽样得到的样本总体;

1.2 全及指标与抽样指标

全及指标是通过某种方式对总体进行计算得到的指标,这种指标能够反映总体的某种属性或特征,也称总体参数;常用的全及指标有:总体平均数(或总体成数)、总体标准差(或总体方差)

抽样指标是通过某种方式对样本进行计算得到的指标,而这种指标能够反应样本的样本特征,目的是用来估计全及指标的综合指标,称为统计量;可以看出,统计量样本变量的函数;常用的统计量(即抽样指标)有:样本平均数(或抽样成数)、样本标准差(或样本方差)

  同样,对于一个问题,总体是唯一确定的,因此总体参数(即全及指标)也是唯一确定的,它是待估计的数;而统计量(即抽样指标)则是随机变量,它的取值随着样本的不同而变化,肯定的嘛;

注意:为求统一,下文中出现的总体参数即代表全及指标,对应于总体;出现的统计量则代表抽样指标,对应于样本

1.3 样本容量与样本个数

样本容量指的是一次抽样后样本所包含的单位数;通常单位数大于30个称大样本,否则称小样本

样本个数指的是从一个总体中可能抽取的样本(即样本总体)个数,也称样本可能数目

  一个总体有多少样本,则样本统计量就有多少种取值,从而就形成统计量的分布;

1.4 重复抽样和不重复抽样

  重复抽样和不重复抽样表示的是从总体种获取样本的两种不同方式重复抽样指的是在抽样过程中,是又放回的;不重复抽样则表示无放回;

2. 抽样误差

2.1 抽样误差

  由于样本是从总体中随机抽样而来的,正因为随机抽样使样本中各单位的结构不足以代表总体中各单位的结构(其实,也就是说样本无法完全反映总体的特征),而引起的统计量与总体参数(即抽样指标与全及指标)之间的绝对离差,称为抽样误差,也称随机误差;(不包括登记误差、系统性误差)(至于什么是绝对离差?,是指单项数值与平均值之间差的绝对值)

  抽样误差包括:抽样实际误差、抽样平均误差、抽样极限/允许误差

2.2 影响抽样误差的因素

影响抽样误差的因素:

  • 总体各单位标志值的差异程度;
  • 样本的单位数;
  • 抽样的方法;
  • 抽样调查的组织形式;

2.3 抽样平均误差

“终于见到想要看到的东西了,,,,”

2.3.1 抽样平均误差的作用

作用:抽样平均误差的作用是说明统计量(即样本指标)对总体参数(即总体指标)的代表性的高低;即抽样平均误差大,说明统计量对总体参数的代表性低;反之,则高;

2.3.2 抽样平均误差的计算

(1)抽样平均误差是指所有可能的样本指标与总体指标之间的平均差异程度,反应抽样误差的一般水平的指标;

(2)用样本平均数的标准差样本成数的标准差来作为衡量其抽样误差一般水平的尺度。

抽样平均误差的计算根据抽样方式的不同分成:重复抽样计算、不重复抽样计算;

2.3.2.1 样本平均数的抽样平均误差

重复抽样:

\[\sigma_{\overline{X}} =\dfrac{\sigma}{\sqrt{n}} \]

其中,\(\sigma\)表示总体标准差;\(n\)表示样本容量;

不重复抽样:

\[\sigma_{\overline{X}} = \sqrt{\dfrac{\sigma^2}{n}(\dfrac{N-n}{N-1})} \]

其中,\(N\)表示总体单位数;

当\(N\)很大的时候,\(N-1\approx N\):

\[\sigma_{\overline{X}} = \sqrt{\dfrac{\sigma^2}{n}(1-\dfrac{n}{N})} \]

计算抽样平均误差时,用样本标准差\(s\)代替总体标准差;

2.3.2.2 样本成数的抽样平均误差

样本成数的抽样平均误差表明各样本成数和总体成数绝对离差的一般水平;

重复抽样:

\[\sigma_P = \sqrt{\dfrac{p(1-p)}{n}} \]

其中,\(p\)表示总体成数;\(n\)表示样本单位数;

不重复抽样:

\[\sigma_P = \sqrt{\dfrac{p(1-p)}{n}(\dfrac{N-n}{N-1})} \]

当\(N\)很大时,

\[\sigma_P = \sqrt{\dfrac{p(1-p)}{n}(1-\dfrac{n}{N})} \]

总结:可以发现,重复抽样的抽样平均误差大于不重复抽样的抽样平均误差;


大致看到了目前自己想要看明白的阶段,其中具体细节没有深究;例如,计算抽样平均误差的样本平均数样本成数具体怎么定义,以及上述公式如何推导证明?

仍有许多问题存在其中,引用文献中有一篇抽样平均误差计算公式的证明,作者对公式进行了推导,想要弄明白的可以看一下;