回归表各项含义
- 1.数据
- 2.回归结果
- 3.名词解释
- 3.1 自变量对因变量的影响:回归系数、std err、t、P、[0.025,0.975]
- 3.2 回归拟合程度-决定系数R方
- 3.3 模型的有效性:F检验
1.数据
import pandas as pd
path = 'ex1data2.txt'
data2 = pd.read_csv(path, header=None, names=['Size', 'Bedrooms', 'Price'])
data2.head()
#标准化
data = (data2 - data2.mean()) / data2.std()
data.head()
2.回归结果
import statsmodels.api as sm
from patsy import dmatrices
y,X=dmatrices('Price~Size+Bedrooms',data=data, return_type='dataframe')
res=sm.OLS(y,X).fit()
res.summary()
3.名词解释
中心极限定理(central limit theorem):In probability theory, the central limit theorem (CLT) establishes that, in some situations, when independent random variables are added, their properly normalized sum tends toward a normal distribution (informally a bell curve) even if the original variables themselves are not normally distributed.
3.1 自变量对因变量的影响:回归系数、std err、t、P、[0.025,0.975]
coef: 回归系数
std err:回归系数的标准差
t: t值
P:P值
[0.025,0.975]: 回归系数的95%的置信区间
接下来按照假设检验的步骤对这几个名词进行解释:
- 建立假设:零假设:;备择假设:
- 回归分析零假设的标准差,回归栏报告的标准差就是这个标准差(此处不对回归系数标准差公式进行推导),如图中size变量回归系数的标准差为0.094。
- 补充:多元回归系数的方差
- 其中,为残差的方差,
- 对于所有变量而言,残差方差相同,相同,差异在每个变量的
- 而对于标准化处理之后的变量,均值为0,方差为1。等于样本量(标准化后自变量的标准差乘以样本量)。因此,经过标准化处理的自变量的回归系数的标准差一样,这也是为什么下图的两个变量(size,bedrooms)回归系数的标准差一样的原因。
- 计算统计量:
- 查询统计量对应P值
- 若P值小于0.05,拒绝原假设,接受备择假设。说明回归系数不等于0,自变量显著影响因变量
而回归系数的95%的置信区间的计算其实就是[coef-1.96std,coef+1.96std],如果区间包含0,则说明回归系数的1.96个标准差范围内有0出现,不足以拒绝原假设。
判断系数显著的方法
1)P 值(常用)-用它!
2)t值或z值(z值为1.96,系数在0.05的显著性水平下显著)
3)置信区间是否包含0,包含0则说明在回归表报告的显著性水平(图中为0.05)下不显著。
3.2 回归拟合程度-决定系数R方
在说明F检验之前,先说明回归平方和、残差平方和等几个概念。先摆出一个公式(可自行推导):
此公式背后的逻辑是:回归时总的回归平方和(其实就是数据的方差分子的部分),一部分是由回归涉及的变量解释,另一部分归残差所有。回归平方和越大,说明模型自变量对因变量的解释力越强。这也是R方想要说的事。虽然对于同一个因变量,回归平方和就可以描述自变量对因变量的解释力。但可能考虑到不同的因变量的总偏差平方和不同,R方就成了下面的形式。
但是,R方统计并不完美。它有一个主要缺陷。不管我们在回归模型中添加多少变量,它的值永远不会减少。因此,调整R方就出世了。
- ,没有加入任何自变量时的残差平方和,也就是总偏差平方和SST
- 就是加入自变量的残差平方和。所以就是1-R方。
- n,样本量
- p,自变量数量
调整R方的逻辑是:当加入的变量不是好变量时,RSS1下降不了太多,甚至可能没有分母的下降程度大,则此时调整R方变小。
3.3 模型的有效性:F检验
F检验,检验模型的显著性,至少有一个变量是重要的。F检验的思想是零假设所有的变量都不起作用,备择假设是至少有一个变量起作用。
- ,没有加入任何自变量时的残差平方和,也就是总偏差平方和SST
- 就是加入自变量的残差平方和。
- n,样本量
- p,自变量数量
- n-p-1是模型的自由度
F检验对应的P值小于0.05,则说明该模型至少有一个变量是起作用的。