一、回归分析概述
回归分析是寻找存在关系的变量间的数学表达式,并进行统计推断的一种统计方法。简单的说,回归分析可以预测数值型的目标值,比如已知一批特征数据及目标值,找到这些特征与目标存在的关系系数,求得方程,从而可以推测未知的目标值是多少。用这个方法可以做很多事情,如预测明年销售量,制造缺陷预测,又或者预测明星们的离婚率。
二、回归分析一般步骤
- 确定回归方程中的因变量和自变量
- 确定回归模型,建立回归方程
- 对方程进行检验
- 利用回归方方程进行预测
三、回归方程
(
:截距,
:斜率,x:自变量,y:因变量)我们可将
乘上一个
,令
=1。整合公式有:
我们得到的H(x)是预测值,预测值和实际值y存在着误差
,理想情况下,误差越小,预测值越接近实际值,则可得到我们需要的回归系数即方程。而误差
是服从高斯分布的:①式:
②式:
将②式代入①式,得:
因此我们要求参数
等于多少时,
接近
的概率最大。这类问题,我们可用似然函数和对数似然来解决,得:
(即最小二乘法)
四、误差及回归检验方法
名称 | 定义 | 公式 | 意义 |
标准误差 | 度量观察值围绕回归直线的变化过程,即分散程度 | (n:样本量,k:被限制的变量个数;n-k:自由度) | Se越大,代表数据分散程度越大,回归方程代表性越小 |
置信区间 | 置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是测量值的可信程度。通俗的讲,即是预测值的误差范围。 | ( :预测值) | 置信水平 越大,置信区间越宽;数据离散程度Se越大,区间越宽;样本容量越大,区间宽度越小; 和 差异越大,区间宽度越大。 |
总平方和(SST) | 反映n个y观测值与均值的总离差
| 且有:SST=SSR+SSE | |
回归平方和(SSR) | 由x与y之间的线性关系引起的y变化部分 | ||
残差平方和(SSE) | 除了x与y之间线性影响之外的因素对y变差的作用,不能由回归直线解释 | ||
判定系数 | 回归平方和占总平方和的比例,判断回归方程的好坏,用 来表示,其值在0到1之间。 | 趋向于0,代表y和x无关,不能用回归方程解释y变化;若趋向于1,则代表完全拟合,y的变化只和x有关。 | |
显著性检验 | 检验包括两个方面:①、线性关系检验:检验x和y是否由线性关系;②、回归系数检验 | ①、线性关系检验(n-k:自由度): ②、回归系数检验公式 (n-k:自由度) : | 多元线性归回:①、线性关系公式:只能检验总体自变量和因变量回归关系显著性;②、回归系数检验公式:可以对各个自变量的系数进行检验 |
五、曲线回归分析
曲线回归(curvilinear regression)是指对于非线性关系的变量进行回归分析的方法。曲线回归方程一般是以自变量的多项式表达因变量。方法是:根据数据的特点先进行某些变换(如对数变换、平方根变换等),如果变换后得到线性模型,则进行线性回归; 如果变换后仍得不到线性模型,则可以用曲线拟合的方法对原始数据进行拟合,确定曲线回归方程。(摘自百度百科)
曲线回归分析首要任务也是最难部分是:确定自变量x和因变量y之间的曲线关系类型(即确定方程类型)。我们可以用三步骤:变换
建模
还原
- 先将x或y进行变换成直线方程。
- 对新变量进行直线回归分析,建立方程,进行显著性检验和区间估计。
- 将新变量还原,得出原变量的曲线方程和置信区间。
六、多重共线性
- 定义:模型中,两个或以上的自变量彼此之间存在相关现象。
- 检验多重共线性的方法:①、容忍度;②、方差膨胀因子(VIF)
- 容忍度公式: (:与其他变量x的相关系数)(Toli越趋向于0,多重共线性越强)
- 方差膨胀因子公式:
此篇记录关于回归分析的数学基础,下一篇是将会分享用python做回归分析,将引用statsmodels和scikit-learn库。