非线性优化算法总结
文章目录
- 非线性优化算法总结
- 一、非线性最小二乘问题
- 二、最速梯度下降法和牛顿法
- 三、高斯牛顿法
- 四、LM( Levenberg-Marquadt)法
一、非线性最小二乘问题
最小二乘法形式如下式:
这里Target(θ)函数为目标函数,在机器学习中就是损失函数,
这个函数为预测值,在机器学习中就是模型输出值,yi是真实值或理论值。
那么 非线性最小二乘 就很容易理解了,目标参数函数和参数的关系是非线性。这里要优化的参数为θ。
对于矩阵形式,这里我们简单一点:直接把简单的非线性最小二乘问题定义为:
这里要优化的参数就是X。其中自变量x∈Rn,f(x)是任意的非线性函数,并设它的维度为m,即f(x)∈Rm.如果 f 是个数学形式上很简单的函数,那问题也许可以用解析形式来求。令目标函数的导数为零,然后求解 x 的最优值,就和一个求二元函数的极值一样:
解此方程,就得到了导数为零处的极值。它们可能是极大、极小或鞍点处的值,只要挨个儿比较它们的函数值大小即可。但是导数不一定可以直接求解x,这个导函数可能是一个复杂的非线性方程。这种情况下一般采用迭代来求解,从一个初始值出发,不断地更新当前的优化变量,使目标函数下降。具体步骤可以表示为 :
这让求解导函数为零的问题,变成了一个不断寻找梯度并下降的过程。直到某个时刻增量非常小,无法再使函数下降。此时算法收敛,目标达到了一个极小,我们完成了寻找极小值的过程。
二、最速梯度下降法和牛顿法
首先,我们将目标函数在X附近进行泰勒展开:
这里如果看不懂的话就复习一下高数中的泰勒展开式和简单矩阵求导。这里的J(x)是f(x)关于x的导数(雅可比矩阵),H(x)是二阶导数(海森矩阵)。我们可以选择保留泰勒公式的一阶导数和二阶导数,如果保留一阶导数,则增量的解就是:
它的直观意义非常简单,只要我们找到梯度然后沿着反向梯度方向前进即可。当然,我们还需要该方向上取一个步长 λ,求得最快的下降方式。这种方法被称为最速梯度下降法或是一阶梯度法。
另一方面,如果保留二阶梯度信息,那么增量方程为:
对Δx求导数并令它等于0,则
就得到了增量的解:
这种方法称为牛顿法或二阶梯度法,它的迭代公式可以表示为:
这两种方法只要把函数在迭代点附近进行泰勒展开,并针对更新量作最小化即可。由于泰勒展开之后函数变成了多项式,所以求解增量时只需解线性方程即可,避免了直接求导函数为零这样的非线性方程的困难。这两种方法也存在它们自身的问题。最速梯度下降法过于贪心,容易走出锯齿路线,反而增加了迭代次数。而牛顿法则需要计算目标函数的 H 矩阵,这在问题规模较大时非常困难,我们通常倾向于避免 H 的计算。
三、高斯牛顿法
Gauss Newton 是最优化算法里面最简单的方法之一。它的思想是将 f(x) 进行一阶的
泰勒展开(请注意不是对下面的目标函数 进行展开)
而是如下展开:
这里 J(x) 为 f(x) 关于 x 的导数,实际上是一个 m × n 的矩阵,也是一个雅可比矩阵。根据前面的框架,当前的目标是为了寻找下降矢量 ∆x,使得 ∥f (x + ∆x)∥2 达到最小。为了求 ∆x,我们构建 一个线性的最小二乘问题:
根据极值条件,将上述目标函数对 ∆x 求导,并令导数为零。由于这里考虑的是 ∆x 的导数(而不是 x),我们最后将得到一个线性的方程。为此,先展开目标函数的平方项:
求上式关于 ∆x 的导数,并令其为零:
我们要求解的变量是 ∆x,这是一个线性方程组,我们称它为增量方程或高斯牛顿方程 (Gauss Newton equations) 或者正规方程 (Normal equations)。我们把左边的系数定义为 H,右边定义为 g,那么上式变为:
对比牛顿法可见,高斯牛顿法用 J矩阵的转置乘以J矩阵作为牛顿法中二阶 H 矩阵的近似,从而省略了计算 H 的过程。求解增量方程是整个优化问题的核心所在。原则上,它要求近似的矩阵H是可逆的(而且是正定的),而实际计算中得到的JTJ却是半正定的。也就是使用高斯牛顿法会出现JTJ为奇异或者病态情况,此时增量的稳定性较差,导致算法不收敛。即使H非奇异也非病态,如果求得的Δx非常大,也会导致我们采用的局部近似不够正确,这样以来可能不能保证收敛,哪怕是还有可能让目标函数更大。即使高斯牛顿法具有它的缺点,但是很多非线性优化可以看作是高斯牛顿法的一个变种,这些算法结合了高斯牛顿法的优点并修正其缺点。例如LM算法,尽管它的收敛速度可能比高斯牛顿法更慢,但是该方法健壮性更强,也被称为阻尼牛顿法。
四、LM( Levenberg-Marquadt)法
由于 高斯牛顿方法中采用的近似二阶泰勒展开只能在展开点附近有较好的近似效果,所以我们很自然地想到应该给 ∆x 添加一个信赖区域(Trust Region),不能让它太大而使得近似不准确。非线性优化种有一系列这类方法,这类方法也被称之为信赖区域方法 (Trust Region Method)。在信赖区域里边,我们认为近似是有效的;出了这个区域,近似可能会出问题。一个比较好的方法是根据我们的近似模型跟实际函数之间的差异来确定这个范围:如果差异小,我们就让范围尽可能大;如果差异大,我们就缩小这个近似范围。因此,考虑使用:
来判断泰勒近似是否够好。ρ 的分子是实际函数下降的值,分母是近似模型下降的值。如果 ρ 接近于 1,则近似是好的。如果 ρ 太小,说明实际减小的值远少于近似减小的值,则认为近似比较差,需要缩小近似范围。反之,如果 ρ 比较大,则说明实际下降的比预计的更大,我们可以放大近似范围。LM算法表示如下:
上面算法中,μ表示信赖区域的半径,那么信赖区域就是一个球形区域,该约束认为只有在球内才是有效的,带上矩阵D后就是一个椭球区域。在 LM 算法中,我们需要解下面的式子那样的一个子问题来获得梯度。
这个子问题是带不等式约束的优化问题采用拉格朗日乘子法将上述问题转化为一个无约束问题:
这里 λ 为 拉格朗日 乘子。仔细看上面的式子,我们根据加号把它分为左右两部分,回想前面的高斯牛顿算法,你会发现加号左边是一个高斯牛顿算法中的最小二乘问题,这一部分对Δx求梯度,得到增量方程:
加号右边对Δx求梯度,得到:
我们把这两部分合并:得到增量的线性方程:
可以看到,增量方程相比于 高斯牛顿,多了一项。如果考虑它的简化形式,即 D = I,那么相当于求解:
当参数 λ 比较小时,H 占主要地位,这说明二次近似模型在该范围内是比较好的,LM 方法更接近于 高斯牛顿法。另一方面,当 λ 比较大时,λI 占据主要地位,LM更接近于最速梯度下降法这说明附近的二次近似不够好。LM 的求解方式,可在一定程度上避免线性方程组的系数矩阵的非奇异和病态问题,提供更稳定更准确的增量 ∆x。
总而言之,非线性优化问题的框架,分为 Line Search 和 Trust Region 两类。Line Search 先固定搜索方向,然后在该方向寻找步长,以最速下降法和 高斯牛顿法为代表。而 Trust Region 则先固定搜索区域,再考虑找该区域内的最优点。此类方法以 LM 为代表。实际问题中,我们通常选择 高斯牛顿或 LM 之一作为梯度下降策略。
参考书籍《视觉SLAM十四讲 从理论到实践》