线性回归
介绍
线性回归又称为最小二乘法回归Ordinary Least-Squares (OLS) Regression。简单来说就是一条线性函数来很好的拟合已知数据并预测未知数据。
在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
一元线性回归
明确常用数学符号
- 特征(feature): ,也称为观测变量, 比如,房屋的面积,卧室数量都算房的
- 特征 特征向量(输入): ,一套房屋的信息就算一个特征向量,特征向量由特征组成,
- 输出向量: ,又称为预测变量,
- 假设(hypothesis):也称为预测函数。比如一个线性预测函数是:(θ为回归系数,与预测准确度息息相关)
- 学习率(α):其标识了沿梯度方向行进的速率。不能过大,也不可太小。在实际编程中,学习率可以以 3 倍,10 倍这样进行取值尝试,如:α=0.001,0.003,0.01…0.3,1
误差评估
需要某个手段来评估我们的学习效果,即评估各个真实值 与预测值 hθ(x(i)) 之间的差异。最常见的,我们通过最小均方(Least Mean Square)来描述误差。
梯度下降
梯度下降算法在机器学习中是很普遍的算法,不仅可以用于线性回归问题,还可以应用到其他很多的机器学习的问题中。梯度下降算法是一种求局部最优解的方法。
在线性回归中,通常使用梯度下降(Gradient Descent)来调节 θ
- 批量梯度下降 (每次迭代用到所有样本)
- 随机梯度下降 (每次迭代只需要用一个样本)
- 小批量梯度下降(每次迭代用到部分b个样本)==应用
多元线性回归
定义
未完待续····