第8章 方差分析与实验设计
8.1 方差分析的基本原理
方差分析(ANOVA):通过对数据误差的分析来判断各分类自变量对数值因变量影响的一种统计方法。自变量对因变量的影响也称为自变量效应,而影响效应的大小则体现为因变量的误差里有多少是由于自变量造成的。因此,方差分析就是来检验这种效应是否显著。
各自变量也称为因素或因子,分析单个因素对因变量的影响称为单因素方差分析。如果考虑两个因素,但不考虑两者的交互效应,则为只考虑主效应的双因素方差分析或无重复双因素分析。如果交互性也考虑的话,称为可重复双因素分析。
总误差=处理误差+随机误差;
总平方和(SST)=处理平方和(SSA)+误差平方和(SSE)。
方差分析就是要分析数据的总误差中有没有处理误差。
方差分析的3个基本假定:1)正态性:每种处理对应的总体都应该是正态分布;2)方差齐性:每个处理对应的总体的方差相等;3)独立性:每个样本数据都来自不同处理的独立样本。
8.2 单因素方差分析
8.3 双因素方差分析
第9章 一元线性回归
9.1 变量间关系
变量之间的关系可以分为:函数关系(确定关系)、相关关系(不确定关系)。
由散点图看出:正相关、负相关、完全正相关、完全负相关、非线性相关、不相关。
相关系数度量两个变量之间线性关系强弱(Pearson相关系数):
r = Σ(x-μx)(y-μy)/ sqrt( Σ(x-μx)2×Σ(y-μy)2 )
计算该相关系数时,假定:两个变量之间是线性关系,而且都是随机变量,且服从一个联合双变量正态分布,且不应有极端值。
总体相关系数是未知的,那么所求的相关系数其实是由样本数据计算而来,是样本统计量,所以要对其可靠性进行显著性检验,使用t分布检验:
提出假设:H0:总体相关系数=0,H1:不等于0
计算统计量:t= r × sqrt(n - 2) / sqrt(1 –r2) ~ t(n - 2)。
求出统计量的P值,做出决策。
9.2 一元线性回归的估计和检验
9.2.1 一元线性回归的估计
总体的回归方程为:y= β0 +β1x + ε
样本(估计)的回归方程:y’ =β0’ +β1’x
运用最小二乘法估计参数β0’和β1’。
运用判定系数来衡量回归直线对数据的拟合优度。
总平方和(SST)= Σ(yi – μy)2
回归平方和(SSR)= Σ(yi’ – μy)2
残差平方和(SSE)=Σ(yi –yi’)2
判定系数R2=SSR/SST,R2=1,拟合是完全的。若y与x无关,那么R2=0。
估计标准误差se =sqrt(SSE/n-2)。反映的是用估计回归方程预测因变量y时预测误差。
9.2.2 一元线性回归的检验
在建立回归模型前,已经假定y与x是线性关系,但是这个假定是否成立是需要检验的。
(1)线性关系检验
简称为F检验,检验x与y之间的线性关系是否显著。
假设:H0:β1=0,两个变量间的线性关系不显著
统计量:F= (SSR/1) / (SSE/n-2) = MSR / MSE ~ F(1, n-2)。
(2)回归系数的检验
简称为t检验,用于检验自变量对因变量的影响是否显著。(在一元线性回归中,线性关系检验和回归系数检验等价)
假设:H0:β1=0,两个变量间的线性关系不显著
统计量:t= β1’ / sβ1 ~ t(n-2),sβ1’= se / sqrt(Σxi2 – (Σxi)2/n)
9.3 利用回归方程进行预测
可以根据回归方程进行点估计和区间估计(平均值的估计区间、个别值的估计区间)。
给出公式。
9.4 用残差检验模型的假定
回归模型的假定ε期望值为0、方差相等且服从正态分布,这个也需要检验。
9.4.1 检验方差齐性
残差ei= yi – yi’
残差图,看是否均匀分布在0上下。
9.4.2 检验方差正态性
标准化残差(Pearson残差或半学生化残差)zei= ei/ se
如果ε满足正态分布,那么ze也满足正态分布,用正态检验就行。
第10章 多元线性回归
10.1 多元线性回归模型
总体的回归方程为:y= β0 + β1x1 + + β2x2+… +βkxk + ε
估计的回归方程为:y’ = β0’ + β1’x1+ + β2’x2+… + βk’xk + ε
用最小二乘法估计参数βi’。
10.2 拟合优度和显著性检验
10.2.1 拟合优度
多重判定系数R2=SSR/SST
调整的多重判定系数Ra2=1-(1-R2)×(n-1)/(n-k-1),n为样本量,k为自变量个数。
估计标准误差se= sqrt(SSE/n-k-1)
10.2.2 显著性检验
线性关系检验主要是检验主要检验因变量同多个自变量的整体线性关系是否显著。在k个自变量中,只要有一个自变量同因变量的线性关系显著,F检验(线性关系检验)就显著,但这不一定意味着每个自变量同因变量的关系都显著。回归系数检验则是对每个回归系数分别进行单独的检验,以判断每个自变量对因变量的影响是否显著。
(1)线性关系检验
简称为F检验,检验x与y之间的线性关系是否显著。
假设:H0:β1 = β2= …= βk =0
统计量:F= (SSR/k) / (SSE/n-k-1) ~ F(k, n-k-1)。
(2)回归系数的检验
简称为t检验,用于检验自变量对因变量的影响是否显著。
假设:H0:βi=0
统计量:t= βi’ / sβi’ ~ t(n-k-1),sβi’ = se /sqrt(Σxi2 – (Σxi)2/n)
10.3 多重共线性及其处理
10.3.1 多重共线性及其识别
多重共线性:回归模型中两个或两个以上的自变量彼此相关。
识别与处理可以见《经济计量学精要》。
10.3.2 变量选择
选择自变量的原则:讲一个或一个以上自变量引入到回归模型中时,应该使残差平方和(SSE)有显著减少。
变量的选择方法有向前选择、向后剔除和逐步回归。
向前选择:对k个变量分别作一元拟合,选取F统计量最大的。再一个个增加。特点是:只要某个自变量增加到模型中,就一定会保留。
向后踢出:对k个变量,分别移除,选取模型的SSE值减小最少的自变量,剔除。特点是:剔除的,就不会再选入模型。
逐步回归:上述两个方法的结合,在新增加自变量后,会考虑前面增加的某个变量的共现变得不显著,则剔除。不断增加、剔除,直至SSE不会显著减少。特点:剔除的可能再被增加进入,增加的可能被剔除。
10.4 利用回归方程进行预测
10.5 哑变量回归
哑变量也称为虚拟变量、分类变量。