用SPSS的童鞋都知道,我们常用的方差分析(ANOVA)在一般线性模型(General Linear Model,简称GLM)的菜单下。那GLM是何许人也呢?让我们打开万能的wiki,键入General Linear Model。。。看到的居然是一张毫无违和感的Fitting Plot:

                                                       

差异模型 opencv 差异性分析模型_方差分析

以及传说中的多元(线性)回归公式: $Y_{i}=\beta_{0} + \beta_{i1}X_{i1} + \beta_{2}X_{i2} + ... +  \beta_{p}X_{ip} + \epsilon_{i} $  

  这不是回归问题么?跟检验差异的方差分析有何关系呢?

 

  事实上,基于正态分布假设的参数检验(T检验,ANOVA,MANOVA,ANCOVA等等)均可以表征成回归问题。

      不妨让我们以最简单的二类差异问题为例(组A与组B的差异)  ,我们通常采用T检验考察A与B之间的差异,并用Error_bar来表示A与B的差异(如下图左)。

                                

差异模型 opencv 差异性分析模型_线性模型_02

                   

差异模型 opencv 差异性分析模型_方差分析_03

  A与B是自变量X下的两个水平,我们可以用0(A)与1(B)来编码它们。那么,我们便可以得到因变量Y与自变量X的对应函数Y=F(X),假定两者之间存在线性相关,即有函数模型$Y = \alpha X + \beta$ (如上图右)。当A与B的差异越大,拟合线的斜率α也越大,即差异性检验可以通过回归的形式来表达。

  那么两者之间的显著性是否等价呢?即A与B之间的T分数与拟合线的斜率α的T分数是否相同,答案是肯定的。

 

 

  我们不妨假设组A与组B之间满足方差齐性,组A(Na)与组B(Nb)的样本数不等。那么组A与组B之间的t值即为

差异模型 opencv 差异性分析模型_斜率_04

其中,有差异模型 opencv 差异性分析模型_差异模型 opencv_05$ 分别为组A与组B的标准差。

 

差异模型 opencv 差异性分析模型_线性模型_06,即有$t=\frac{MEAN}{SE}$

 

先处理最简单的MEAN部分:

将线性模型$Y = \alpha X + \beta$代入MEAN,由于$X_{a_{i}}=0$,$X_{b_{i}}=1$,即有: $MEAN =( \hat{\alpha} \times 1 +\hat{\beta} ) - ( \hat{\alpha} \times 0 +\hat{\beta} )={\hat{\alpha} -0} $

 

接着来看SE部分,首先是$S_{Y_{a}Y_{b}}$部分:

根据样本标准差的Bessel校正公式,$S_{Y_{a}}=\frac{ \sum_{i=1}^{N_{a}}{(Y_{a_{i}} - \overline{Y_{a}})^{2}}}{N_{a}-1}$,$S_{Y_{b}}=\frac{ \sum_{i=1}^{N_{b}}{(Y_{b_{i}} - \overline{Y_{b}})^{2}}}{N_{b}-1}$,将两者带入$S_{Y_{a}Y_{b}}$:

差异模型 opencv 差异性分析模型_差异模型 opencv_07

组A,B的均值分别是其组内点的最小二乘估计量,即$\overline{Y_{a}}=\hat{Y_{a_{i}}},i\in A$;$\overline{Y_{b}}=\hat{Y_{b_{i}}},i\in B$:

差异模型 opencv 差异性分析模型_差异模型 opencv_08

   

最后,来看$\sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}$:

差异模型 opencv 差异性分析模型_方差分析_09

由于$X_{a_{i}}=0$,$X_{b_{i}}=1$,即有$N_{b}=\sum^{N}X_{i}=\sum^{N}X_{i}^2$,并有$\overline{X}=\frac{N_{b}}{N}$:

差异模型 opencv 差异性分析模型_斜率_10

即$\large \sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}=\frac{1}{\sqrt{\sum_{i=1}^{N}(X_{i}-\overline{X})^2}}$

 

综上差异模型 opencv 差异性分析模型_斜率_11最后的等式为线性模型的斜率的最小二乘估计量$\hat{\alpha}$是否大于0的T检验的表达式。

至此,我们成功的证明了:

方差齐性且不等组的组A与组B的之间的差异的T值 与

线性模型差异模型 opencv 差异性分析模型_线性模型_12中$\alpha$是否显著大于0的T值是等价的。

 

 对于更为一般的方差不齐的情况、配对样本T检验以及多组间比较的方差分析(dummy coding技术),且听下回分解^ ^