多维变量回归 lasso 自变量多维度的回归

转载

信息小飞侠 2024-04-20 12:11:19

文章标签 多维变量回归 lasso 机器学习 Andrew-NG 正规方程代价函数 文章分类 机器学习人工智能

一、多变量线性回归（Multivariate Linear Regression）

1.1 多维特征（Multiple Features）

目前为止，我们探讨了单变量/特征的回归模型，现在我们对房价模型增加更多的特征，

例如房间数楼层等，构成一个含有多个变量的模型，模型中的特征为（x 1 ,x 2 ,…,x n ）。

多维变量回归 lasso 自变量多维度的回归_机器学习

增添更多特征后，我们引入一系列新的注释：

n 代表特征的数量

m 代表训练样本的数量

x(i)=the input (features) of the ith training example
代表第 i 个训练实例，是特征矩阵中的第 i 行，是一个向量（vector）
比方说，上图的
x(2)=⎡⎣⎢⎢⎢14163240⎤⎦⎥⎥⎥

x(i)j=value of feature j in the ith training example
代表特征矩阵中第 i 行的第 j 个特征，也就是第 i 个训练实例的第 j 个特征。
如上图的x(2)3=2

支持多变量的假设 h 表示为：
hθ(x)=θ0+θ1x1+θ2x2+θ3x3+⋯+θnxn

这个公式中有 n+1 个参数和 n 个变量，为了使得公式能够简化一些，引入 x0

hθ(x)=[θ0θ1...θn]⎡⎣⎢⎢⎢⎢x0x1⋮xn⎤⎦⎥⎥⎥⎥=θTx

模型中的参数是一个 n+1 维的向量，任何一个训练实例也都是 n+1 维的向量

1.2 多变量梯度下降（Gradient Descent for Multiple Variables）

代价函数:
J(θ0,θ1...θn)=12m∑i=1m(hθ(x(i))−y(i))2

其中：hθ(x)=θ0+θ1x1+θ2x2+θ3x3+⋯+θnxn=θTx

我们的目标和单变量线性回归问题中一样，是要找出使得代价函数最小的一系列参数。
多变量线性回归的批量梯度下降算法为：

多维变量回归 lasso 自变量多维度的回归_正规方程_02

求导后：
}repeat until convergence:{θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))⋅x(i)jfor j := 0...n

即：

}repeat until convergence:{θ0:=θ0−α1m∑i=1m(hθ(x(i))−y(i))⋅x(i)0θ1:=θ1−α1m∑i=1m(hθ(x(i))−y(i))⋅x(i)1θ2:=θ2−α1m∑i=1m(hθ(x(i))−y(i))⋅x(i)2⋯

对比单变量梯度下降和多变量梯度下降：

多维变量回归 lasso 自变量多维度的回归_多维变量回归 lasso_03

1.3 梯度下降法实践 1-特征缩放（Feature Scaling）

在我们面对多维特征问题的时候，我们要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。

以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0-2000 平方英尺，而房间数量的值则是 0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度的方向为垂直等高线的方向而走之字形路线，梯度下降算法需要非常多次的迭代才能收敛。

解决的方法是尝试将所有特征的尺度都尽量缩放到-1 到 1 之间。如图：

多维变量回归 lasso 自变量多维度的回归_机器学习_04

数据归一化常用方法：

1、min-max标准化（Min-Max Normalization）
也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 - 1]之间。转换函数如下：

x′=x−min(x)max(x)−min(x)

其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

2、Z-score标准化方法

x′=x−μσ

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

都的地方，σ出为最大值和最小值之差。

1.4 梯度下降法实践 2-学习率（Learning Rate）

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。

多维变量回归 lasso 自变量多维度的回归_Andrew-NG_05

也有一些自动测试是否收敛的方法，例如将代价函数的变化值与某个阀值（例如 0.001）进行比较，但通常看上面这样的图表更好。

梯度下降算法的每次迭代受到学习率的影响，如果学习率 α 过小，则达到收敛所需的迭代次数会非常高；如果学习率 α 过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

通常可以考虑尝试些学习率：
α=0.01，0.03，0.1，0.3，1，3，10

1.5 特征和多项式回归（Features and Polynomial Regression）

有时通过定义新的特征，可能会得到更好的模型。

如房价预测问题，

多维变量回归 lasso 自变量多维度的回归_正规方程_06

hθ(x)=θ0+θ1×frontage+θ2×depth

x1=frontage(临街宽度)，x2=depth(纵向深度)
定义新的特征，x=frontage×depth=area(面积)，则
hθ(x)=θ0+θ1x

线性回归并不适用于所有数据，有时我们需要曲线来适应我们的数据，

比如一个二次方模型：hθ(x)=θ0+θ1x1+θ2x21，

或者三次方模型：hθ(x)=θ0+θ1x1+θ2x21+θ3x31

多维变量回归 lasso 自变量多维度的回归_多维变量回归 lasso_07

通常我们需要先观察数据然后再决定准备尝试怎样的模型。另外，我们可以定义新的特征令：
x2=x21
x3=x31
从而将模型转化为线性回归模型。

注：如果我们采用多项式回归模型，在运行梯度下降算法前，特征缩放非常有必要。

二、计算参数分析（Computing Parameters Analytically）

2.1 正规方程（Normal Equation）

到目前为止，我们都在使用梯度下降算法，来求使得代价函数值最小的参数θ的值

但是对于某些线性回归问题，正规方程方法是更好的解决方案。

假设代价函数是
J(θ)=aθ2+bθ+c

对其求导，令其导数等于0，即可求得能是函数取得极值点的θ值。

假设我们的训练集特征矩阵为 X（包含了 x0=1

θ=(XTX)−1XTy

多维变量回归 lasso 自变量多维度的回归_代价函数_08

使用正规方程不需要进行特征缩放。

在 Octave 中，正规方程写作：pinv(X’*X)*X’*y

注：对于那些不可逆的矩阵（通常是因为特征之间不独立，如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征，也有可能是特征数量大于训练集的数量），正规方程方法是不能用的。

梯度下降与正规方程的比较：

梯度下降	正规方程
需要选择学习率 α	不需要
需要多次迭代	一次运算得出
时间复杂度：O(kn2) , 当特征数量 n 大时也能较好适用	需要计算 (XTX)−1 ，如果特征数量 n 较大则运算代价大，因为矩阵逆的计算时间复杂度为 O(n3)，通常来说当 n 小于 10000 时还是可以接受的
适用于各种类型的模型	只适用于线性模型，不适合逻辑回归模型等其他模型