回归表各项含义

  • 1.数据
  • 2.回归结果
  • 3.名词解释
  • 3.1 自变量对因变量的影响:回归系数、std err、t、P、[0.025,0.975]
  • 3.2 回归拟合程度-决定系数R方
  • 3.3 模型的有效性:F检验


1.数据

import pandas as pd
path =  'ex1data2.txt'
data2 = pd.read_csv(path, header=None, names=['Size', 'Bedrooms', 'Price'])
data2.head()
#标准化
data = (data2 - data2.mean()) / data2.std()
data.head()

GridSearchCV回归模型 score 回归coef_数据

2.回归结果

import statsmodels.api as sm
from patsy import dmatrices
y,X=dmatrices('Price~Size+Bedrooms',data=data, return_type='dataframe')
res=sm.OLS(y,X).fit()
res.summary()

GridSearchCV回归模型 score 回归coef_数据_02

3.名词解释

中心极限定理(central limit theorem):In probability theory, the central limit theorem (CLT) establishes that, in some situations, when independent random variables are added, their properly normalized sum tends toward a normal distribution (informally a bell curve) even if the original variables themselves are not normally distributed.

3.1 自变量对因变量的影响:回归系数、std err、t、P、[0.025,0.975]

coef: 回归系数
std err:回归系数的标准差
t: t值
P:P值
[0.025,0.975]: 回归系数的95%的置信区间

接下来按照假设检验的步骤对这几个名词进行解释:

  • 建立假设:零假设:GridSearchCV回归模型 score 回归coef_方差_03;备择假设:GridSearchCV回归模型 score 回归coef_数据_04
  • 回归分析零假设的标准差,回归栏报告的标准差就是这个标准差(此处不对回归系数标准差公式进行推导),如图中size变量回归系数的标准差为0.094。
  • 补充:多元回归系数的方差GridSearchCV回归模型 score 回归coef_方差_05
  • 其中,GridSearchCV回归模型 score 回归coef_标准差_06为残差的方差,GridSearchCV回归模型 score 回归coef_数据_07
  • 对于所有变量而言,残差方差相同,GridSearchCV回归模型 score 回归coef_标准差_08相同,差异在每个变量的GridSearchCV回归模型 score 回归coef_数据_09
  • 而对于标准化处理之后的变量,均值为0,方差为1。GridSearchCV回归模型 score 回归coef_标准差_10等于样本量(标准化后自变量的标准差乘以样本量)。因此,经过标准化处理的自变量的回归系数的标准差一样,这也是为什么下图的两个变量(size,bedrooms)回归系数的标准差一样的原因。
  • 计算统计量:GridSearchCV回归模型 score 回归coef_标准差_11
    GridSearchCV回归模型 score 回归coef_标准差_12
    GridSearchCV回归模型 score 回归coef_标准差_13
  • 查询统计量对应P值
  • 若P值小于0.05,拒绝原假设,接受备择假设。说明回归系数不等于0,自变量显著影响因变量
    而回归系数的95%的置信区间的计算其实就是[coef-1.96std,coef+1.96std],如果区间包含0,则说明回归系数的1.96个标准差范围内有0出现,不足以拒绝原假设。

判断系数显著的方法
1)P 值(常用)-用它!
2)t值或z值(z值为1.96,系数在0.05的显著性水平下显著)
3)置信区间是否包含0,包含0则说明在回归表报告的显著性水平(图中为0.05)下不显著。

3.2 回归拟合程度-决定系数R方

       在说明F检验之前,先说明回归平方和、残差平方和等几个概念。先摆出一个公式(可自行推导):

GridSearchCV回归模型 score 回归coef_标准差_14


       此公式背后的逻辑是:回归时总的回归平方和(其实就是数据的方差分子的部分),一部分是由回归涉及的变量解释,另一部分归残差所有。回归平方和越大,说明模型自变量对因变量的解释力越强。这也是R方想要说的事。虽然对于同一个因变量,回归平方和就可以描述自变量对因变量的解释力。但可能考虑到不同的因变量的总偏差平方和不同,R方就成了下面的形式。

GridSearchCV回归模型 score 回归coef_方差_15


但是,R方统计并不完美。它有一个主要缺陷。不管我们在回归模型中添加多少变量,它的值永远不会减少。因此,调整R方就出世了。

GridSearchCV回归模型 score 回归coef_数据_16

  • GridSearchCV回归模型 score 回归coef_标准差_17,没有加入任何自变量时的残差平方和,也就是总偏差平方和SST
  • GridSearchCV回归模型 score 回归coef_标准差_18就是加入自变量的残差平方和。所以GridSearchCV回归模型 score 回归coef_方差_19就是1-R方。
  • n,样本量
  • p,自变量数量
           调整R方的逻辑是:当加入的变量不是好变量时,RSS1下降不了太多,甚至可能没有分母的下降程度大,则此时调整R方变小。

3.3 模型的有效性:F检验

       F检验,检验模型的显著性,至少有一个变量是重要的。F检验的思想是零假设所有的变量都不起作用,备择假设是至少有一个变量起作用。

GridSearchCV回归模型 score 回归coef_数据_20

  • GridSearchCV回归模型 score 回归coef_标准差_17,没有加入任何自变量时的残差平方和,也就是总偏差平方和SST
  • GridSearchCV回归模型 score 回归coef_标准差_18就是加入自变量的残差平方和。
  • n,样本量
  • p,自变量数量
  • n-p-1是模型的自由度
    F检验对应的P值小于0.05,则说明该模型至少有一个变量是起作用的。