对于
的列联表来说,第
行第
列单元的实际观测值我们可以记为
。另外,对于每一个单元,我们还有一个期望频数——如果我们的原假设是期望第
行第
列单元概率等于确定值
,那么如果我们的样本总量为
,那么第
行第
列单元的理想观测数应该为
,我们把它记为
。那么为了验证我们的假设:第
行第
列单元的概率等于确定值
,我们实际上就只需要比较
与
是否接近。当
越大的时候,我们越能拒绝原假设
。
皮尔逊统计量与似然比统计量
检验
的统计量这里介绍了两个:皮尔逊统计量与似然比统计量。
- 皮尔逊统计量
皮尔逊统计量可以归结为得分 (Score Test) 统计量。当所有的
的时候,统计量达到最小值
。那么对于固定的样本容量,
的差异越大,那么
越大,就越可以拒绝原假设。这个检验的
值,是在
成立下
不小于观测值的概率。当样本量足够大的时候,统计量
有近似卡方分布。
事实上皮尔逊统计量的用途不仅仅是在列联表,它也可以用来衡量数据是否服从一个分布。好巧不巧,这个统计量渐进分布的证明是我某一场面试(虽然一共只经历了三场面试hhh)时候讲的题目:
- 似然比统计量
似然比统计量是基于似然比方法的统计量。现在我应该可以回答我面试的问题之一了。
的信息之外,还用到了一般参数空间的信息。
似然比统计量取非负数。当
不成立的时候,极大似然比将远小于1,那么它的对数值为负。
对于基于多项分布的似然函数的双向列联表,似然比统计量简化为:
具体的证明可以看这个:Categorical Data Analysis
与皮尔逊统计量类似,当所有
的时候,
达到它的最小值
,而且越大的
提供了拒绝
的越强烈证据。
独立性检验
我们刚刚介绍了两个统计量,现在回到我们的检验问题。在两个响应变量具有联合概率
的双向列联表中,统计独立的原假设如下。
原假设:
对所有的
都成立
记
作为期望频数,由于
未知,在原假设成立的前提下,我们用频率估计概率,于是就有了
作为对
的估计。
检验统计量:
,
在原假设下的分布:大样本下渐进
拒绝域:
列联表的单元残差
检验统计量和它的P值仅仅提供了拒绝原假设的证据。为了更好地理解拒绝原假设的原因,我们将逐个对比每个单元的观测频数与期望频数的估计。
如果样本量很大,那么
与
的差距也会相应变大,所以原始的差值并不充分。我们把绝对误差除以一个估计标准误,得到
标准化残差。
标准化残差:
如果原假设成立,那么每个标准化的残差都会服从大样本标准正态分布。当单元数较少时,标准化残差的绝对值超过
,或者单元数较多时标准化残差的绝对值超过
,这些都表明这些单元在原假设
下拟合不佳。