一 线性回归(最小二乘法)

假设我们有n个样本数据,每个数据有p个特征值,然后p个特征值是线性关系。

即对应的线性模型

少样本学习 回归 小样本 回归_方差

写成矩阵的形式即是Y=XA

由于样本与模型不一定百分百符合,存在一些噪声,即误差,用B表示,B也是一个向量

即B=Y-XA

Y为样本值,XA为模型的计算值,即期望值

误差的平方的计算公式

少样本学习 回归 小样本 回归_方差_02

Xi为行向量,A为列向量。

最小二乘法的目标就是取得最小的e对应的A,由于方差的计算是一个二次函数,即抛物线,对应存在一个最小值,即导数为0对应的A。所以对e求A的偏导数,再使其等于0,求解方程即可以获得A。

误差的平方e写成矩阵形式即为

少样本学习 回归 小样本 回归_少样本学习 回归_03

对矩阵E取迹(迹就是矩阵对角线上所有元素的累加)且对迹求导后结果为一个矩阵。

即为 

少样本学习 回归 小样本 回归_少样本学习 回归_04

展开为  

少样本学习 回归 小样本 回归_最小二乘_05

求导化简结果为

少样本学习 回归 小样本 回归_最小二乘_06

 

当A的维数比Y的维数多,即样本数量n少于特征值p的时候

少样本学习 回归 小样本 回归_方差_07

存在多个解,可能导致结果

少样本学习 回归 小样本 回归_最小二乘_08

很不稳定,所以要确保n>p

 

X矩阵不存在广义逆(即奇异性)的情况:
1)X本身存在线性相关关系(即多重共线性),即非满秩矩阵。
当采样值误差造成本身线性相关的样本矩阵仍然可以求出逆阵时,此时的逆阵非常不稳定,所求的解也没有什么意义。
2)当变量比样本多,即p>n时.
这时,回归系数会变得很大,无法求解。在统计学上,可证明A的最小二乘解为无偏估计,即多次得到的采样值X而计算出来的多个系数估计值向量 的平均值将无限接近于真实值向量β。

 

二 岭回归(Ridge Regression)

 

思路:在原先的A的最小二乘估计中加一个小扰动λI,是原先无法求广义逆的情况变成可以求出其广义逆,使得问题稳定并得以求解。

少样本学习 回归 小样本 回归_少样本学习 回归_09

可以看到 

少样本学习 回归 小样本 回归_少样本学习 回归_10

变为满秩矩阵,可以求稳定的逆。

对应的推导过程如下:

少样本学习 回归 小样本 回归_最小二乘_11

 

上式子写成矩阵的形式为

少样本学习 回归 小样本 回归_少样本学习 回归_12

对上式子采用一样的方式(求A的偏导数=0)可得

少样本学习 回归 小样本 回归_方差_13

岭回归与最小二乘的区别在于

少样本学习 回归 小样本 回归_少样本学习 回归_14

这一项,称之为正则项,这一项可以看成是对A的各个元素,即各个特征的权的总体的平衡程度,也就是权之间的方差。

介绍一下误差(偏差)和方差

偏差bais

预测出来的数据与真实值的差距

方差 variance

预测出来的数据的分散程度

少样本学习 回归 小样本 回归_少样本学习 回归_15

 

在二维的情况下可以这样来理解

少样本学习 回归 小样本 回归_岭回归_16

RSS为误差

椭圆形抛物面为

少样本学习 回归 小样本 回归_方差_17

这一部分,圆柱形为

少样本学习 回归 小样本 回归_少样本学习 回归_18

这一部分,由最小二乘法求得的解是抛物面的最低点,由岭回归求得的解便是图中的黄点,一般来说,拟合的误差值(偏差)越小,A的各个元素(权)的方差越高,所以岭回归是找到一个方差不会太大,误差也不会太大的一个权衡的点,随着r增大,方差变大(随着增大,方差减小)。

 

岭回归性质
1)当岭参数为0,得到最小二乘解。
2)当岭参数λ趋向更大时,岭回归系数A估计趋向于0。
3)岭回归是回归参数A的有偏估计。它的结果是使得残差平和变大,但是会使系数检验变好。 
4)在认为岭参数λ是与y无关的常数时,是最小二乘估计的一个线性变换,也是y的线性函数。
但在实际应用中,由于λ总是要通过数据确定,因此λ也依赖于y、因此从本质上说,并非的线性变换,也非y的线性函数。
5)对于回归系数向量来说,有偏估计回归系数向量长度<无偏估计回归系数向量长度。


少样本学习 回归 小样本 回归_方差_19


6)存在某一个λ,使得它所对应的的MSE(估计向量的均方误差)<最小二乘法对应估计向量的的MSE。

即  存在λ>0,使得

少样本学习 回归 小样本 回归_少样本学习 回归_20


 

岭迹图
是λ的函数,岭迹图的横坐标为λ,纵坐标为A(λ)。而A(λ)是一个向量,由a1(λ)、a2(λ)、...等很多分量组成,每一个分量都是λ的函数,将每一个分量分别用一条线。
当不存在奇异性时,岭迹应是稳定地逐渐趋向于0

 

少样本学习 回归 小样本 回归_岭回归_21

岭迹图作用:
1)观察λ较佳取值;
2)观察变量是否有多重共线性;

在λ很小时,A很大,且不稳定,当λ增大到一定程度时,A系数迅速缩小,趋于稳定。

λ的选择:一般通过观察,选取喇叭口附近的值,此时各β值已趋于稳定,但总的RSS又不是很大。
选择变量:删除那些β取值一直趋于0的变量。

 

岭参数的一般选择原则
选择λ值,使到
1)各回归系数的岭估计基本稳定;
2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;
3)回归系数没有不合乎实际意义的值;
4)残差平方和增大不太多。 一般λ越大,系数β会出现稳定的假象,但是残差平方和也会更大。



取λ的方法比较多,但是结果差异较大。这是岭回归的弱点之一。

岭回归选择变量的原则(不靠谱,仅供参考)
1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且值很小的自变量。
2)随着λ的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。
3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。

 

三 LASSO回归

LASSO回归和岭回归的区别只在于正则项不同

少样本学习 回归 小样本 回归_方差_22

两者的区别对应到图形上则是

少样本学习 回归 小样本 回归_最小二乘_23

图片中的黑色粗线,即为一个底面为正方形的柱体与抛物面的交点

少样本学习 回归 小样本 回归_少样本学习 回归_24

从投影图看则更加的直观,lasso更容易产生解为0的情况,可以起到筛选变量的目的。