一、回归分析概述

回归分析是寻找存在关系的变量间的数学表达式,并进行统计推断的一种统计方法。简单的说,回归分析可以预测数值型的目标值,比如已知一批特征数据及目标值,找到这些特征与目标存在的关系系数,求得方程,从而可以推测未知的目标值是多少。用这个方法可以做很多事情,如预测明年销售量,制造缺陷预测,又或者预测明星们的离婚率。

二、回归分析一般步骤

  1. 确定回归方程中的因变量和自变量
  2. 确定回归模型,建立回归方程
  3. 对方程进行检验
  4. 利用回归方方程进行预测

三、回归方程

  (

检验回归模型中截距是否为0r语言 回归分析截距怎么看_拟合

:截距,

检验回归模型中截距是否为0r语言 回归分析截距怎么看_回归分析_02

:斜率,x:自变量,y:因变量)我们可将

检验回归模型中截距是否为0r语言 回归分析截距怎么看_拟合

乘上一个

检验回归模型中截距是否为0r语言 回归分析截距怎么看_回归分析_04

,令

检验回归模型中截距是否为0r语言 回归分析截距怎么看_回归分析_04

=1。整合公式有:

检验回归模型中截距是否为0r语言 回归分析截距怎么看_回归分析_06

我们得到的H(x)是预测值,预测值和实际值y存在着误差

检验回归模型中截距是否为0r语言 回归分析截距怎么看_检验回归模型中截距是否为0r语言_07

,理想情况下,误差越小,预测值越接近实际值,则可得到我们需要的回归系数即方程。而误差

检验回归模型中截距是否为0r语言 回归分析截距怎么看_检验回归模型中截距是否为0r语言_07

是服从高斯分布的:①式:

 ②式:

检验回归模型中截距是否为0r语言 回归分析截距怎么看_检验回归模型中截距是否为0r语言_09

将②式代入①式,得:

检验回归模型中截距是否为0r语言 回归分析截距怎么看_拟合_10

因此我们要求参数

检验回归模型中截距是否为0r语言 回归分析截距怎么看_回归分析_11

等于多少时,

检验回归模型中截距是否为0r语言 回归分析截距怎么看_拟合_12

接近

检验回归模型中截距是否为0r语言 回归分析截距怎么看_拟合_13

的概率最大。这类问题,我们可用似然函数和对数似然来解决,得:

检验回归模型中截距是否为0r语言 回归分析截距怎么看_数据_14

(即最小二乘法)

四、误差及回归检验方法

名称

定义

公式

意义

标准误差

度量观察值围绕回归直线的变化过程,即分散程度

检验回归模型中截距是否为0r语言 回归分析截距怎么看_回归分析_15

(n:样本量,k:被限制的变量个数;n-k:自由度)

Se越大,代表数据分散程度越大,回归方程代表性越小

置信区间

置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是测量值的可信程度。通俗的讲,即是预测值的误差范围。

检验回归模型中截距是否为0r语言 回归分析截距怎么看_拟合_16

(

检验回归模型中截距是否为0r语言 回归分析截距怎么看_检验回归模型中截距是否为0r语言_17

:预测值)

置信水平

检验回归模型中截距是否为0r语言 回归分析截距怎么看_回归分析_18

越大,置信区间越宽;数据离散程度Se越大,区间越宽;样本容量越大,区间宽度越小;

检验回归模型中截距是否为0r语言 回归分析截距怎么看_数据_19


检验回归模型中截距是否为0r语言 回归分析截距怎么看_拟合_20

差异越大,区间宽度越大。

总平方和(SST)

反映n个y观测值与均值的总离差

 

检验回归模型中截距是否为0r语言 回归分析截距怎么看_检验回归模型中截距是否为0r语言_21

且有:SST=SSR+SSE

回归平方和(SSR)

由x与y之间的线性关系引起的y变化部分

检验回归模型中截距是否为0r语言 回归分析截距怎么看_数据_22

残差平方和(SSE)

除了x与y之间线性影响之外的因素对y变差的作用,不能由回归直线解释

检验回归模型中截距是否为0r语言 回归分析截距怎么看_检验回归模型中截距是否为0r语言_21

判定系数

回归平方和占总平方和的比例,判断回归方程的好坏,用

检验回归模型中截距是否为0r语言 回归分析截距怎么看_检验回归模型中截距是否为0r语言_24

来表示,其值在0到1之间。

检验回归模型中截距是否为0r语言 回归分析截距怎么看_检验回归模型中截距是否为0r语言_25

检验回归模型中截距是否为0r语言 回归分析截距怎么看_检验回归模型中截距是否为0r语言_24

趋向于0,代表y和x无关,不能用回归方程解释y变化;若趋向于1,则代表完全拟合,y的变化只和x有关。

显著性检验

检验包括两个方面:①、线性关系检验:检验x和y是否由线性关系;②、回归系数检验

①、线性关系检验(n-k:自由度):

检验回归模型中截距是否为0r语言 回归分析截距怎么看_数据_27

②、回归系数检验公式 (n-k:自由度) :

检验回归模型中截距是否为0r语言 回归分析截距怎么看_拟合_28

多元线性归回:①、线性关系公式:只能检验总体自变量和因变量回归关系显著性;②、回归系数检验公式:可以对各个自变量的系数进行检验

五、曲线回归分析

曲线回归(curvilinear regression)是指对于非线性关系的变量进行回归分析的方法。曲线回归方程一般是以自变量的多项式表达因变量。方法是:根据数据的特点先进行某些变换(如对数变换、平方根变换等),如果变换后得到线性模型,则进行线性回归; 如果变换后仍得不到线性模型,则可以用曲线拟合的方法对原始数据进行拟合,确定曲线回归方程。(摘自百度百科)

曲线回归分析首要任务也是最难部分是:确定自变量x和因变量y之间的曲线关系类型(即确定方程类型)。我们可以用三步骤:变换

检验回归模型中截距是否为0r语言 回归分析截距怎么看_检验回归模型中截距是否为0r语言_29

建模

检验回归模型中截距是否为0r语言 回归分析截距怎么看_检验回归模型中截距是否为0r语言_29

还原

  1. 先将x或y进行变换成直线方程。
  2. 对新变量进行直线回归分析,建立方程,进行显著性检验和区间估计。
  3. 将新变量还原,得出原变量的曲线方程和置信区间。

六、多重共线性

  1. 定义:模型中,两个或以上的自变量彼此之间存在相关现象。
  2. 检验多重共线性的方法:①、容忍度;②、方差膨胀因子(VIF)
  3. 容忍度公式:  (:与其他变量x的相关系数)(Toli越趋向于0,多重共线性越强)
  4. 方差膨胀因子公式:

此篇记录关于回归分析的数学基础,下一篇是将会分享用python做回归分析,将引用statsmodels和scikit-learn库。