方差分析

 方差分析是由英国统计学家Fisher在20世纪20年代提出的。
 方差分析的目的是推断两个或者两个以上的总体均值是否有差异的显著性检验。

单因素方差分析

例子

 保险公司为了了解某一险种在4个不同地区索赔额情况是否存在差异。收集了四个地区一年的索赔额记录。这四个地区的索赔额有无显著性差异。

 

机器学习线性回归均方差过高 线性回归中的方差分析_MSE


 

概念

 试验指标:研究对象的特征值。例如:索赔额。
 因素:对试验指标产生影响的原因。例如:地区。
 水平:因素中各个不同状态称为水平。例如:A1、A2、A3、A4四个水平。
 单因素方差分析:仅考虑一个因素A对试验指标的影响。

检验假设

nj个观察值,j=1,2...r,观察值总数为n
 Xij=μi+εij
 εij~N(0,σ2)
 j=1,2,...ni,i=1,2,...r
 ∑ri=1ni=n
 X¯¯¯i.=1ni∑nij=1Xij
 X¯¯¯=1n∑ri=1∑nij=1Xij

原检验

H0:μ1=μ2=....=μr
 H1:μ1,μ2...μr不全相等

检验假设的方法

 检验假设采用的方法是平方和分解法。
 总离差平方和ST: 表示数据中的差异。这种差异可以认为由两部分因素引起:因素A和随机误差。
 效应平方和SA: 表示由因素A引起的差异。
 误差平方和SE: 表示由随机误差所引起的差异。
 ST=∑ri=1∑nij=1(Xij−X¯¯¯)2
 SA=∑ri=1(X¯¯¯i.−X¯¯¯)2 (又叫做组间差异)
 SE=1n∑ri=1∑nij=1(Xij−X¯¯¯i.)2(又叫做组内差异)

选择统计量

 定理如下:
 ST=SA+SE
   SEσ2~卡方(n-r) 理由是:对于某一个水平i,∑nij=1(Xij−Xi.)2是总体N(μi,σ2)的样本方差Si的nj−1倍,所以∑nij=1(Xij−Xi.)2σ2~卡方(ni−1)(参考链接);又因为各个水平之间相互独立,Xij相互独立,根据卡方分布的可加性,所以SEσ2~卡方(∑ri=1ni−1);等价于最开始的表达式。

E(SE)=(n−r)σ2,可以参考参数估计(PDF版)的练习题。    SE与SA独立(参考链接)    当H0为真时,SAσ2~卡方(r-1) 理由是: SA=∑ri=1(X¯¯¯i.−X¯¯¯)2是r个变量ni−−√(X¯¯¯i.−X¯¯¯)(i=1,2…r)的平方和,因为H0的假设使得它们之间有一个线性约束条件…..写不下去了,参考一下课本或者直接记住结论。  最终使用的统计量F=SA/(r−1)SE/(n−r)~F(r-1,n-r)  问题的拒绝域F=SA/(r−1)SE/(n−r)≥Fα(r−1,n−r),因为如果各个水平均值相同那么SA不应该太大。

查表计算

未知参数估计

σ2,μ1,μ2...
 σ^2=SEn−r=MSE
 μi=X¯¯¯i.
 

两两对比

N(μi,σ2)与N(μj,σ2)是否有差异。可以使用区间估计或者假设检验。

区间估计

E(X¯¯¯i.−X¯¯¯j.)=μi−μj
 D(X¯¯¯i.−X¯¯¯j.)=σ2(1ni+1nj)=MSE(1ni+1nj)
 所以X¯¯¯i.−X¯¯¯j.~N(μi−μj,MSE(1ni+1nj)),参考以前可以知道置信区间是(X¯¯¯i.−X¯¯¯j.±tα/2(n−r)MSE(1/ni+1/nj)−−−−−−−−−−−−−−−√)

假设检验

H0:μi=μj,H1:μi≠μj
 检验统计量 tij=X¯¯¯i.−X¯¯¯j.MSE(1/ni+1/nj)−−−−−−−−−−−−−−−√)
 当H0成立,tij~t(n−r) (这里自由度为什么是n-r?)
 拒绝域 W=|tij|>tα/2(n−r)

方差分析的条件

 进行方差分析的三个条件
 1独立性。数据来自r个总体的随机抽样。在实际使用中要注意试验数据、或者采集数据的独立性。
 2 正态性。r个独立总体均为正态分布。实际中几乎没有一个总体真正服从正态分布,只要数据分布比较对称的话就没有问题。F检验对正态性的假设并不敏感。
 3 方差齐性。r个总体方差相同。方差齐性的检查标准是:最大样本标准差不超过最小样本标准差的两倍时,方差分析F检验结果近似准确。