皮尔逊卡方检验的R语言 皮尔逊卡方检验值_似然比


对于


的列联表来说,第


行第


列单元的实际观测值我们可以记为


。另外,对于每一个单元,我们还有一个期望频数——如果我们的原假设是期望第


行第


列单元概率等于确定值


,那么如果我们的样本总量为


,那么第


行第


列单元的理想观测数应该为


,我们把它记为


。那么为了验证我们的假设:第


行第


列单元的概率等于确定值


,我们实际上就只需要比较



是否接近。当


越大的时候,我们越能拒绝原假设



皮尔逊统计量与似然比统计量

检验


的统计量这里介绍了两个:皮尔逊统计量与似然比统计量。


  • 皮尔逊统计量



皮尔逊统计量可以归结为得分 (Score Test) 统计量。当所有的


的时候,统计量达到最小值


。那么对于固定的样本容量,


的差异越大,那么


越大,就越可以拒绝原假设。这个检验的


值,是在


成立下


不小于观测值的概率。当样本量足够大的时候,统计量


有近似卡方分布。


事实上皮尔逊统计量的用途不仅仅是在列联表,它也可以用来衡量数据是否服从一个分布。好巧不巧,这个统计量渐进分布的证明是我某一场面试(虽然一共只经历了三场面试hhh)时候讲的题目:


皮尔逊卡方检验的R语言 皮尔逊卡方检验值_皮尔逊卡方检验的R语言_02


皮尔逊卡方检验的R语言 皮尔逊卡方检验值_似然比_03


皮尔逊卡方检验的R语言 皮尔逊卡方检验值_皮尔逊卡方检验的R语言_04


  • 似然比统计量



似然比统计量是基于似然比方法的统计量。现在我应该可以回答我面试的问题之一了。

的信息之外,还用到了一般参数空间的信息。

似然比统计量取非负数。当


不成立的时候,极大似然比将远小于1,那么它的对数值为负。


对于基于多项分布的似然函数的双向列联表,似然比统计量简化为:



具体的证明可以看这个:Categorical Data Analysis

与皮尔逊统计量类似,当所有


的时候,


达到它的最小值


,而且越大的


提供了拒绝


的越强烈证据。


独立性检验

我们刚刚介绍了两个统计量,现在回到我们的检验问题。在两个响应变量具有联合概率


的双向列联表中,统计独立的原假设如下。


原假设


对所有的


都成立



作为期望频数,由于


未知,在原假设成立的前提下,我们用频率估计概率,于是就有了


作为对


的估计。


检验统计量




在原假设下的分布:大样本下渐进



拒绝域



列联表的单元残差

检验统计量和它的P值仅仅提供了拒绝原假设的证据。为了更好地理解拒绝原假设的原因,我们将逐个对比每个单元的观测频数与期望频数的估计。

如果样本量很大,那么



的差距也会相应变大,所以原始的差值并不充分。我们把绝对误差除以一个估计标准误,得到

标准化残差。

标准化残差:

如果原假设成立,那么每个标准化的残差都会服从大样本标准正态分布。当单元数较少时,标准化残差的绝对值超过


,或者单元数较多时标准化残差的绝对值超过


,这些都表明这些单元在原假设


下拟合不佳。