spark多元回归模型 spass多元回归分析模型选择_线性回归

线性回归介绍

  回归分析是研究变量之间因果关系的一种统计模型;因变量就是结果,自变量就是原因;基于结果变量(因变量)的种类,回归分析可分为:线性回归(因变量为连续变量)、logistic回归(因变量为分类变量)、柏松回归(因变量为计数变量);这三种回归模型中自变量则可以是任意类型的变量;

  有的自变量对因变量的影响不是很大,且自变量之间可能存在多重共线性(即可能不完全独立),通过建立逐步回归分析,进行X因子筛选;

比如:收入水平于受教育程度、所在行业、工作年限、工作种类的关系;公路客运量与人口增长量、私家车保有量、国民生产总值、国民收入等因素的关系;

线性回归分析

步骤

spark多元回归模型 spass多元回归分析模型选择_线性回归_02


选项 -> 修改使用F的概率:进入:0.15;除去:0.20;-> 勾上 德宾-沃森 (检测变量是否存在序列相关,时间序列必选);

统计 -> 勾上共线性诊断;

spark多元回归模型 spass多元回归分析模型选择_回归分析_03

结果分析

模型摘要

spark多元回归模型 spass多元回归分析模型选择_spark多元回归模型_04


R2即为拟合度,如果拟合度很低,则多元线性回归方程之间的关系并不显著,没有实际意义;

如果自变量超过5个,则一般认定调整后的R方,这里明显拟合度很高(或者说 导致这个结果的 99.6%都是上述原因造成的)(一般调整后的R方过了0.3都算不错的了);


系数

spark多元回归模型 spass多元回归分析模型选择_SPSS_05


显著性 P 值 <= 0.05 才可以,这里 x15、x4、x7、x5可以;

得到回归方程;但是这个是有条件的:

条件一就是:自变量不存在多重共线性!这样那四个变量的系数才是可靠的;

spark多元回归模型 spass多元回归分析模型选择_拟合_06


如果 VIF 值 小于5 ,那么意味着 自变量之间不存在多重共线性;第一个诊断满足;条件二:残差符合正态分布

spark多元回归模型 spass多元回归分析模型选择_回归分析_07


如果 P-P图上 个点均在直线附近,则说明残差符合正态分布;满足第二个条件!条件三:RW值(德宾-沃森值)在 2 附近(1.9-2.1之间)时才会认为变量之间不存在序列相关;

spark多元回归模型 spass多元回归分析模型选择_SPSS_08


这里 RW值为2.7 也能勉强接收;