1.线性回归
统计学中的线性回归:对于一组具有线性关系的数据,可以用一条直线来拟合这些数据。用于拟合这些数据的直线应该使得所有数据到这条直线的距离最短(这里的距离简化为真实值和预测值之间的距离)。
设这条直线为:y=mx+b
其中,m为直线的斜率,b为截距。线性回归学习的目的是找到这样的参数m和b,使得所有数据点到这条直线的距离最短。数据点到直线的距离的平方之和,或说是平方误差为:
分别对m和b求偏导,并令其为0,可得:
求得:
决定系数(coefficient of determination): y的波动多大程度上可以被x的波动描述,what % of the total variation is described by the variation in x
其中:
,
当
很小时,说明直线很好地拟合了数据
很小
接近于1;当
的值较大时,说明直线不能很好地拟合数据
接近1
接近于0。因此从
的值可以推断出直线的拟合程度。
线性回归的斜率与随机变量协方差的关系:
令X,Y为两个随机变量,X和Y的协方差定义为:
可以化简为:
当X=Y时,有
,即X和X的协方差等于X的方差
上式中的期望可以用样本均值来估计,即:
,
,
则用样本均值估计的协方差可以写为:
这是不是有点熟悉?线性回归拟合的直线中的斜率就有上述类似的表达式。随机变量的协方差是总体的统计量,而样本均值是对样本的统计量。之前得到的回归线的斜率可以看成是从总体分布中抽样得到的一个值,可以表示为:
则关于总体的回归线斜率为:
分布(Chi-Squared distribution)假设有一些相互独立的服从标准正态分布的变量,例如:
,另外一些变量与它们的关系为:
则称
分别服从分布:
。下标1,2,3分别表示自由度为1,2,3。
检验(待补充)
皮尔逊
检验列联表(contingency table)
检验列联表自由度:
自由度是真正独立的数据点个数
2.方差分析
当这个值的分子比分母大得多时,说明总体波动大部分来自组间波动,而较少来自组内波动,说明每个组的总体均值之间有差异。
当分母比分子大很多时,说明组内波动比组间波动在总体中占比更多,这意味着,差异可能只是随机产生的。