多元线性回归
模型
零假设 b1=b2=...=bs=0
模型检验统计量 F统计量
系数检验统计量 T统计量
四中常用的模型选择方法:
- 全模型法 cp法
逐步法:
- 向前回归法
- 向后回归法
- 逐步回归法
CP法
通常和BEST =连用,如BEST=2就表示在不同变量个数组成的全模型组合中 选择两个最好的模型。
cp < p p是变量个数加1 是最好的
逐步法
向前回归法 :
首先第一个变量进入回归方程,并进行F检验和T检验,计算残差平方和,记为S1,如果通过检验,则该变量保留,引入第二个变量,重新构建一个新的估计方程,并进行F检验和T检验,同时计算残差平方和,记为s2,从直观上看,增加一个新的变量后,回归平方和应该增大,残差平方和相应应减少,即s2小于s1 称s1-s2的值是第二个变量的偏回归平方和,如果该值明显偏大,则说明第二个变量对因变量有显著影响。
向后回归法:
所有的X变量一次性进入模型进行F检验和T检验然后删除不显著的变量,如果偏回归平方和很大则保留
逐步回归法:
变量一个个进入方程,引入变量 需要利用偏回归平方和进行校验 当显著时加入该变量
当方程加入该变量后,又要对原有老变量重新用偏回归平方和进行校验 如果不显著又要删除该变量
proc reg data=reg.b_fitness;
title "cp法";
ALL_REG: model oxygen_consumption = performance runtime age weight
run_pulse rest_pulse maximum_pulse
/ selection=rsquare adjrsq cp best=4; 全模型标志 cp
可选 可选 调整的回归平方和 选四个最好的模型 一般选用adjrsq
plot cp. *np./ 画图
nomodel nostat
vaxis = 0 to 30 by 5
haxis = 2 to 7 by 1
cmallows=red
chocking=blue;
symbol v=plus color = green h=2;
title 'Stepwise Regression Methods';
标记 可有可无
FORWARD: model oxygen_consumption=performance runtime age weight
run_pulse rest_pulse maximum_pulse
/selection=forward;
BACKWARD: model oxygen_consumption=performance runtime age weight
run_pulse rest_pulse maximum_pulse
/selection=backforward;
STEPWISE: model oxygen_consumption=performance runtime age weight
run_pulse rest_pulse maximum_pulse
/selection=stepwise;
比如 4 0.8355 0.8102 . 符合 4+1 >3.8790
模型检验 pvalue 来看模型是否有意义 <.0001 符合
参数检验 performance runtime weight pvalue大 不具有显著统计学意义
最终结果 不是特闭合适
向后回归法 与全模型有交叉
stepwise