线性回归介绍

1.简单介绍线性回归

线性回归就是利用的样本线性回归置信水平怎么计算 线性回归置信区间_正态分布是特征数据,可能是一个,也可能是多个,通过有监督的学习,学习到由线性回归置信水平怎么计算 线性回归置信区间_线性回归_02线性回归置信水平怎么计算 线性回归置信区间_正态分布_03的映射线性回归置信水平怎么计算 线性回归置信区间_线性回归_04,利用该映射关系对未知的数据进行预估,因为线性回归置信水平怎么计算 线性回归置信区间_正态分布_03为连续值,所以是回归问题。

2. 线性回归的假设函数是什么形式?

线性回归的假设函数(线性回归置信水平怎么计算 线性回归置信区间_线性回归_06表示截距项,线性回归置信水平怎么计算 线性回归置信区间_正态分布_07,方便矩阵表达):

线性回归置信水平怎么计算 线性回归置信区间_线性回归置信水平怎么计算_08


其中线性回归置信水平怎么计算 线性回归置信区间_线性回归_09都是列向量

3. 线性回归的代价(损失)函数是什么形式?

线性回归置信水平怎么计算 线性回归置信区间_正态分布_10

4. 简述岭回归与Lasso回归以及使用场景。
  • 目的:
  • 解决线性回归出现的过拟合的请况。
  • 解决在通过正规方程方法求解线性回归置信水平怎么计算 线性回归置信区间_线性回归置信水平怎么计算_11的过程中出现的线性回归置信水平怎么计算 线性回归置信区间_正态分布_12不可逆的请况。
  • 本质:
  • 约束(限制)要优化的参数

这两种回归均通过在损失函数中引入正则化项来达到目的:

线性回归的损失函数:

线性回归置信水平怎么计算 线性回归置信区间_线性回归_13

岭回归

  • 损失函数:

Lasso回归

  • 损失函数:

本来Lasso回归与岭回归的解空间是全部区域,但通过正则化添加了一些约束,使得解空间变小了,甚至在个别正则化方式下,解变得稀疏了。

线性回归置信水平怎么计算 线性回归置信区间_线性回归置信水平怎么计算_14


如图所示,这里的线性回归置信水平怎么计算 线性回归置信区间_正则化_15都是模型的参数,要优化的目标参数,那个红色边框包含的区域,其实就是解空间,正如上面所说,这个时候,解空间“缩小了”,你只能在这个缩小了的空间中,寻找使得目标函数最小的线性回归置信水平怎么计算 线性回归置信区间_正则化_15左边图的解空间是圆的,是由于采用了线性回归置信水平怎么计算 线性回归置信区间_线性回归置信水平怎么计算_17范数正则化项的缘故,右边的是个四边形,是由于采用了线性回归置信水平怎么计算 线性回归置信区间_正态分布_18范数作为正则化项的缘故,大家可以在纸上画画,线性回归置信水平怎么计算 线性回归置信区间_线性回归置信水平怎么计算_17构成的区域一定是个圆,线性回归置信水平怎么计算 线性回归置信区间_正态分布_18构成的区域一定是个四边形。

再看看那蓝色的圆圈,再次提醒大家,这个坐标轴和特征(数据)没关系,它完全是参数的坐标系,每一个圆圈上,可以取无数个线性回归置信水平怎么计算 线性回归置信区间_正则化_15 ,这些线性回归置信水平怎么计算 线性回归置信区间_正则化_15

蓝色的圈圈一圈又一圈,代表着参数线性回归置信水平怎么计算 线性回归置信区间_正则化_15在不停的变化,并且是在解空间中进行变化(这点注意,图上面没有画出来,估计画出来就不好看了),直到脱离了解空间,也就得到了图上面的那个线性回归置信水平怎么计算 线性回归置信区间_线性回归置信水平怎么计算_24这便是目标函数的最优参数。

对比一下左右两幅图的线性回归置信水平怎么计算 线性回归置信区间_线性回归置信水平怎么计算_24,我们明显可以发现,右图的线性回归置信水平怎么计算 线性回归置信区间_线性回归置信水平怎么计算_24
线性回归置信水平怎么计算 线性回归置信区间_正态分布_27分量是0,有没有感受到一丝丝凉意?稀疏解诞生了!是的,这就是我们想要的稀疏解,我们想要的简单模型。线性回归置信水平怎么计算 线性回归置信区间_正态分布_18线性回归置信水平怎么计算 线性回归置信区间_线性回归置信水平怎么计算_17正则化更容易产生稀疏矩阵。

5. 线性回归要求因变量服从正态分布吗?

线性回归的假设前提是噪声服从正态分布,即因变量服从正态分布。但实际上难以达到,因变量服从正态分布时模型拟合效果更好。