样本容量的确定:

一、总体均值估计时样本容量的确定
二、总体比例估计时样本容量的确定

样本容量的影响因素:
(1)极限误差;
(2)总体方差;
(3)置信水平;
(4)抽样组织形式;
(5)抽样方法。

 

一、总体均值估计时样本容量的确定

机器学习样本量对相关性的影响_方差

机器学习样本量对相关性的影响_假设检验_02

机器学习样本量对相关性的影响_机器学习样本量对相关性的影响_03

机器学习样本量对相关性的影响_假设检验_04

 

二、总体比例估计时样本容量的确定

机器学习样本量对相关性的影响_方差_05

机器学习样本量对相关性的影响_方差_06

机器学习样本量对相关性的影响_数据_07

机器学习样本量对相关性的影响_假设检验_08

机器学习样本量对相关性的影响_数据_09

机器学习样本量对相关性的影响_数据_10

 

假设检验:

什么是假设?
在参数检验中,对总体参数的具体数值所作的陈述。
–就一个总体而言,总体参数包括总体均值、比例、方差等。
–分析之前必须陈述。

什么是假设检验?
1.先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的统计方法。
2.有参数检验和非参数检验。
3.逻辑上运用反证法,统计上依据小概率原理。
–小概率是在一次试验中,一个几乎不可能发生的事件发生的概率。
–小概率原理是指发生概率很小的随机事件在一次试验中几乎是不可能发生的。
–在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设。

原假设:
1.又称“零假设”,通常是研究者想收集证据予以反对的假设,用H0表示。
2.所表达的含义总是指参数没有变化或变量之间没有关系。
3.最初被假设是成立的,之后根据样本数据确定是否有足够的证据拒绝它。

机器学习样本量对相关性的影响_假设检验_11

 

备择假设:

1.也称“研究假设”,研究者想收集证据予以支持的假设,用H1或Ha表示。
2.所表达的含义是总体参数发生了变化或变量之间有某种关系。
3.备择假设通常用于表达研究者自己倾向于支持的看法,然后就是想办法收集证据拒绝原假设,以支持备择假设。

机器学习样本量对相关性的影响_数据_12

双侧检验与单侧检验:

1.备择假设没有特定的方向性,并含有符号“”的假设检验,称为双侧检验或双尾检验(two-tailedtest)。
2.备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-tailedtest)。
–备择假设的方向为“<”,称为左侧检验
–备择假设的方向为“>”,称为右侧检验

机器学习样本量对相关性的影响_方差_13

提出假设:

1.原假设和备择假设是一个完备事件组,而且相互对立。
–在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立。
2.先确定备择假设,再确定原假设。
3.等号“=”总是放在原假设上。

机器学习样本量对相关性的影响_数据_14

机器学习样本量对相关性的影响_数据_15

机器学习样本量对相关性的影响_数据_16

机器学习样本量对相关性的影响_方差_17

机器学习样本量对相关性的影响_方差_18

 

两类错误与显著性水平:

1.研究者总是希望能做出正确的决策,但由于决策是建立在样本信息的基础之上,而样本又是随机的,因而就有可能犯错误。

2.原假设和备择假设不能同时成立,决策的结果要么拒绝H0,要么不拒绝H0。决策时总是希望当原假设正确时没有拒绝它,当原假设不正确时拒绝它,但实际上很难保证不犯错误。

机器学习样本量对相关性的影响_假设检验_19

机器学习样本量对相关性的影响_假设检验_20

机器学习样本量对相关性的影响_方差_21

两类错误的控制:

1.一般来说,对于一个给定的样本,如果犯第Ι类错误的代价比犯第Ⅱ类错误的代价相对较高,则将犯第Ⅰ类错误的概率定得低些较为合理;反之,如果犯第Ⅰ类错误的代价比犯第Ⅱ类错误的代价相对较低,则将犯第Ⅰ类错误的概率定得高些。
2.一般来说,发生哪一类错误的后果更为严重,就应该首要控制哪类错误发生的概率。但由于犯第Ι类错误的概率是可以由研究者控制的,因此在假设检验中,人们往往先控制第Ⅰ类错误的发生概率。

显著性水平

机器学习样本量对相关性的影响_机器学习样本量对相关性的影响_22

:

机器学习样本量对相关性的影响_假设检验_23

 

检验统计量:

1.根据样本数据计算得到的,对原假设进行判断的样本统计量。
2.在假设检验中,需要根据所检验的问题、样本容量、总体分布、总体分布是否已知等要素,科学地选定检验统计量。

机器学习样本量对相关性的影响_数据_24

机器学习样本量对相关性的影响_方差_25

机器学习样本量对相关性的影响_数据_26

机器学习样本量对相关性的影响_假设检验_27

 

用P 值决策:

(P-value)

1.如果原假设为真,所得到的样本结果会像实际观测结果那么极端或更极端的概率。

•P值告诉我们:如果原假设是正确的话,我们得到目前这个样本数据的可能性有多大,如果这个可能性很小,就应该拒绝原假设。

2.被称为观察到的(或实测的)显著性水平。

3.决策规则:若p值<

机器学习样本量对相关性的影响_数据_28

,拒绝H0。

机器学习样本量对相关性的影响_数据_29

机器学习样本量对相关性的影响_机器学习样本量对相关性的影响_30

机器学习样本量对相关性的影响_数据_31

P值是关于数据的概率:

1.P值反映的是在某个总体的许多样本中某一类数据出现的经常程度,它是当原假设正确时,得到目前这个样本数据的概率。
2.P值越小,你拒绝原假设的理由就越充分。

机器学习样本量对相关性的影响_方差_32