1.线性回归

回归方程截距的置信区间 回归截距的统计意义_数据

统计学中的线性回归:对于一组具有线性关系的数据,可以用一条直线来拟合这些数据。用于拟合这些数据的直线应该使得所有数据到这条直线的距离最短(这里的距离简化为真实值和预测值之间的距离)。

设这条直线为:y=mx+b

其中,m为直线的斜率,b为截距。线性回归学习的目的是找到这样的参数m和b,使得所有数据点到这条直线的距离最短。数据点到直线的距离的平方之和,或说是平方误差为:

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_02

分别对m和b求偏导,并令其为0,可得:

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_03

回归方程截距的置信区间 回归截距的统计意义_拟合_04

求得:

回归方程截距的置信区间 回归截距的统计意义_数据_05

回归方程截距的置信区间 回归截距的统计意义_数据_06

 

决定系数(coefficient of determination):   y的波动多大程度上可以被x的波动描述,what % of the total variation is described by the variation in x

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_07

其中:

回归方程截距的置信区间 回归截距的统计意义_拟合_08

,

回归方程截距的置信区间 回归截距的统计意义_数据_09


回归方程截距的置信区间 回归截距的统计意义_拟合_10

很小时,说明直线很好地拟合了数据

回归方程截距的置信区间 回归截距的统计意义_数据_11

回归方程截距的置信区间 回归截距的统计意义_斜率_12

很小

回归方程截距的置信区间 回归截距的统计意义_数据_11

回归方程截距的置信区间 回归截距的统计意义_拟合_14

接近于1;当

回归方程截距的置信区间 回归截距的统计意义_拟合_10

的值较大时,说明直线不能很好地拟合数据

回归方程截距的置信区间 回归截距的统计意义_数据_11

回归方程截距的置信区间 回归截距的统计意义_斜率_12

接近1

回归方程截距的置信区间 回归截距的统计意义_数据_11

回归方程截距的置信区间 回归截距的统计意义_拟合_14

接近于0。因此从

回归方程截距的置信区间 回归截距的统计意义_拟合_14

的值可以推断出直线的拟合程度。

线性回归的斜率与随机变量协方差的关系:

令X,Y为两个随机变量,X和Y的协方差定义为:

回归方程截距的置信区间 回归截距的统计意义_数据_21

可以化简为:

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_22

当X=Y时,有

回归方程截距的置信区间 回归截距的统计意义_斜率_23

,即X和X的协方差等于X的方差

上式中的期望可以用样本均值来估计,即:

回归方程截距的置信区间 回归截距的统计意义_斜率_24

,

回归方程截距的置信区间 回归截距的统计意义_数据_25

,

回归方程截距的置信区间 回归截距的统计意义_数据_26

则用样本均值估计的协方差可以写为:

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_27

这是不是有点熟悉?线性回归拟合的直线中的斜率就有上述类似的表达式。随机变量的协方差是总体的统计量,而样本均值是对样本的统计量。之前得到的回归线的斜率可以看成是从总体分布中抽样得到的一个值,可以表示为:

回归方程截距的置信区间 回归截距的统计意义_数据_28

则关于总体的回归线斜率为:

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_29

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_30

分布(Chi-Squared distribution)假设有一些相互独立的服从标准正态分布的变量,例如:

回归方程截距的置信区间 回归截距的统计意义_拟合_31

,另外一些变量与它们的关系为:

回归方程截距的置信区间 回归截距的统计意义_数据_32

则称

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_33

分别服从分布:

回归方程截距的置信区间 回归截距的统计意义_斜率_34

    。下标1,2,3分别表示自由度为1,2,3。

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_35

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_30

检验(待补充)

皮尔逊

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_30

检验列联表(contingency table)

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_30

检验列联表自由度:

回归方程截距的置信区间 回归截距的统计意义_拟合_39

自由度是真正独立的数据点个数

2.方差分析

回归方程截距的置信区间 回归截距的统计意义_回归方程截距的置信区间_40

当这个值的分子比分母大得多时,说明总体波动大部分来自组间波动,而较少来自组内波动,说明每个组的总体均值之间有差异。

当分母比分子大很多时,说明组内波动比组间波动在总体中占比更多,这意味着,差异可能只是随机产生的。