线性回归介绍
1.简单介绍线性回归
线性回归就是利用的样本是特征数据,可能是一个,也可能是多个,通过有监督的学习,学习到由
到
的映射
,利用该映射关系对未知的数据进行预估,因为
为连续值,所以是回归问题。
2. 线性回归的假设函数是什么形式?
线性回归的假设函数(表示截距项,
,方便矩阵表达):
其中都是列向量
3. 线性回归的代价(损失)函数是什么形式?
4. 简述岭回归与Lasso回归以及使用场景。
- 目的:
- 解决线性回归出现的过拟合的请况。
- 解决在通过正规方程方法求解
的过程中出现的
不可逆的请况。
- 本质:
- 约束(限制)要优化的参数
这两种回归均通过在损失函数中引入正则化项来达到目的:
线性回归的损失函数:
岭回归
- 损失函数:
Lasso回归
- 损失函数:
本来Lasso回归与岭回归的解空间是全部区域,但通过正则化添加了一些约束,使得解空间变小了,甚至在个别正则化方式下,解变得稀疏了。
如图所示,这里的都是模型的参数,要优化的目标参数,那个红色边框包含的区域,其实就是解空间,正如上面所说,这个时候,解空间“缩小了”,你只能在这个缩小了的空间中,寻找使得目标函数最小的
左边图的解空间是圆的,是由于采用了
范数正则化项的缘故,右边的是个四边形,是由于采用了
范数作为正则化项的缘故,大家可以在纸上画画,
构成的区域一定是个圆,
构成的区域一定是个四边形。
再看看那蓝色的圆圈,再次提醒大家,这个坐标轴和特征(数据)没关系,它完全是参数的坐标系,每一个圆圈上,可以取无数个 ,这些
蓝色的圈圈一圈又一圈,代表着参数在不停的变化,并且是在解空间中进行变化(这点注意,图上面没有画出来,估计画出来就不好看了),直到脱离了解空间,也就得到了图上面的那个
这便是目标函数的最优参数。
对比一下左右两幅图的,我们明显可以发现,右图的
的分量是0,有没有感受到一丝丝凉意?稀疏解诞生了!是的,这就是我们想要的稀疏解,我们想要的简单模型。
比
正则化更容易产生稀疏矩阵。
5. 线性回归要求因变量服从正态分布吗?
线性回归的假设前提是噪声服从正态分布,即因变量服从正态分布。但实际上难以达到,因变量服从正态分布时模型拟合效果更好。