文章目录

  • 基本概念
  • 单因素试验的方差分析
  • 前提和假设
  • 基本思路
  • 差异分解
  • 图像理解
  • 差异的统计学特征
  • 检验统计量


基本概念

方差分析(Analysis of Variance,简称ANOVA),是一种对多个水平或多组样本之间期望的差异进行显著性检验的方法。

对于两组样本,如ANOVA 和方差 python 结果不同_复杂度为来自正态总体ANOVA 和方差 python 结果不同_数据分析_02的一个样本,ANOVA 和方差 python 结果不同_数据分析_03为来自正态总体ANOVA 和方差 python 结果不同_方差分析_04的一个样本,往往可以使用t检验方法检验两个总体均值的差异是否显著。但如果有ANOVA 和方差 python 结果不同_图像理解_05组样本,或某个要检验的随机变量X受到某种因素A的影响,因素A有s个水平ANOVA 和方差 python 结果不同_数据分析_06,随机变量X在各组/各水平下的均值分别为ANOVA 和方差 python 结果不同_方差分析_07。若想要检验随机变量X是否受到因素A的影响,即检验这s组样本之间的均值是否有显著差异,即检验假设ANOVA 和方差 python 结果不同_数据分析_08,可以尝试进行ANOVA 和方差 python 结果不同_统计学_09次成对t检验,但这样做的复杂度显然较高。因此常常使用方差分析的方法来进行这种类型的显著性检验。

单因素试验的方差分析

在此先简单记录单因素试验的方差分析,即仅仅考察某个单一因素对随机变量的影响。

前提和假设

之后的讨论均基于如下前提和假设:

有一种因素A对随机变量X有一定影响,因素A有s个水平,假设各个水平下随机变量X的总体均服从正态分布,且在各个水平下的方差相等,均为ANOVA 和方差 python 结果不同_统计学_10。在A的s个水平下分别进行ANOVA 和方差 python 结果不同_统计学_11次独立试验。试验结果如下:

样本总和

样本均值

样本方差

总体均值

ANOVA 和方差 python 结果不同_统计学_47

  • 注意每个水平下的实验次数ANOVA 和方差 python 结果不同_统计学_47可以不一样,故表格不一定是正方形。总共的实验次数ANOVA 和方差 python 结果不同_图像理解_49
  • 样本总和ANOVA 和方差 python 结果不同_图像理解_50,即第j个水平/第j组样本(第j列)的加和;
  • 样本均值ANOVA 和方差 python 结果不同_复杂度_51,即第j个水平/第j组样本(第j列)的样本均值;
  • 样本方差ANOVA 和方差 python 结果不同_统计学_52,即第j个水平/第j组样本(第j列)的样本方差;
  • 因素A有s个水平,假设各个水平下随机变量X的总体均服从正态分布,且各个水平下的方差相等,用数学语言描述即为:各个水平ANOVA 和方差 python 结果不同_复杂度_53下的样本(即各列数据)ANOVA 和方差 python 结果不同_复杂度_54来自具有相同方差的正态总体ANOVA 和方差 python 结果不同_方差分析_55,总体均值ANOVA 和方差 python 结果不同_统计学_56则表示各个水平(各组)的总体均值。

基本思路

要检验A这一因素对随机变量X没有任何影响,则检验A因素在s个不同水平下时,随机变量X的期望差异不显著,即零假设为:ANOVA 和方差 python 结果不同_方差分析_57。为验证该假设建模:

定义总平均为各水平总体均值的算术平均数:ANOVA 和方差 python 结果不同_复杂度_58,即在不考虑因素A时随机变量X的总体平均。相应地,数据的总平均ANOVA 和方差 python 结果不同_统计学_59。根据各个水平下的总体方差均为ANOVA 和方差 python 结果不同_统计学_10的假设,则随机变量X的总体方差自然也就是ANOVA 和方差 python 结果不同_统计学_10。结合中心极限定理,则有:

ANOVA 和方差 python 结果不同_数据分析_62

因素A在不同水平下可能会对总平均有不同影响,再定义水平ANOVA 和方差 python 结果不同_数据分析_63效应为:ANOVA 和方差 python 结果不同_统计学_64,即该水平下的均值与总平均的差异(体现了因素A在该水平上导致的均值的“位移”)。根据定义,有ANOVA 和方差 python 结果不同_数据分析_65

在A的某个水平下进行试验,每次试验的结果则可以表示为总平均ANOVA 和方差 python 结果不同_数据分析_66、该水平下的效应ANOVA 和方差 python 结果不同_图像理解_67与一个随机误差ANOVA 和方差 python 结果不同_数据分析_68的和。即:

ANOVA 和方差 python 结果不同_数据分析_69

往往认为随机误差ANOVA 和方差 python 结果不同_数据分析_68为每次试验随机产生的,故互相独立且均服从正态分布ANOVA 和方差 python 结果不同_统计学_71,也就是该随机误差导致了组内数据的抖动,产生了总体方差ANOVA 和方差 python 结果不同_统计学_10

差异分解

引入总变差ANOVA 和方差 python 结果不同_数据分析_73,即所有数据与数据总平均之间的差异之和:

ANOVA 和方差 python 结果不同_统计学_74

再定义误差平方和ANOVA 和方差 python 结果不同_统计学_75效应平方和ANOVA 和方差 python 结果不同_统计学_76

ANOVA 和方差 python 结果不同_复杂度_77
ANOVA 和方差 python 结果不同_复杂度_78

误差平方和体现的是水平内差异(即组内方差)的和,该部分差异仅由随机误差引起。效应平方和体现的是水平间差异(组间差异)的和,该部分差异则由随机误差以及因素A不同水平下的绝对效应共同引起。基于如上定义,可以推导出(详细推导过程省略):

ANOVA 和方差 python 结果不同_数据分析_79

图像理解

下面作图辅助对上述各种概念的理解:

ANOVA 和方差 python 结果不同_方差分析_80


其中各水平/各组数据通过不同颜色的点表示,不同水平的数据所在的区域大小体现了组内方差;各区域的几何中心点即为该组数据的样本均值ANOVA 和方差 python 结果不同_统计学_81。所有数据所在的区域大小体现了总变差ANOVA 和方差 python 结果不同_数据分析_73;整体区域的几何中心即为总平均ANOVA 和方差 python 结果不同_数据分析_66。局部区域的几何中心与整体区域的几何中心之间的距离就体现了对应水平的效应ANOVA 和方差 python 结果不同_图像理解_67

差异的统计学特征

先单独看各水平下的数据,即各列数据。根据各个水平下的总体服从等方差正态分布ANOVA 和方差 python 结果不同_数据分析_85的假设,有

ANOVA 和方差 python 结果不同_方差分析_86

结合ANOVA 和方差 python 结果不同_方差分析_87分布的可加性,将各列相加即得:

ANOVA 和方差 python 结果不同_方差分析_88

进而有ANOVA 和方差 python 结果不同_数据分析_89,即ANOVA 和方差 python 结果不同_统计学_90就是总体方差ANOVA 和方差 python 结果不同_统计学_10的无偏估计。这样也再次证明了误差平方和ANOVA 和方差 python 结果不同_统计学_75为组内方差的和,仅由随机误差引起。

再看不同水平之间的数据。对于效应平方和,可以推导出如下关系(详细推导过程省略):

ANOVA 和方差 python 结果不同_图像理解_93

这也详细说明了效应平方和ANOVA 和方差 python 结果不同_统计学_76随机误差(第一部分)以及因素A不同水平下的绝对效应(第二部分)共同引起。

检验统计量

此时就可以考虑若零假设成立,即因素A在不同水平下随机变量X的期望差异不显著,也就是说因素A的不同水平的绝对效应的和(即上式中第二部分)为0。因此有:

ANOVA 和方差 python 结果不同_统计学_95

构建统计量:

ANOVA 和方差 python 结果不同_数据分析_96

若零假设成立,则ANOVA 和方差 python 结果不同_统计学_90ANOVA 和方差 python 结果不同_统计学_98均为总体方差ANOVA 和方差 python 结果不同_统计学_10的无偏估计,即上述统计量不得过大。若上述检验量过大(具体值由显著性水平ANOVA 和方差 python 结果不同_图像理解_100决定),则说明效应平方和ANOVA 和方差 python 结果不同_统计学_76比误差平方和ANOVA 和方差 python 结果不同_统计学_75大,也就是说因素A的不同水平的绝对效应之和较大,进而可以认为因素A会影响随机变量X的均值。

一句话总结方差分析就是看组内差异和组间差异是否大致相同,进而推断组间均值是否一致。