方向导数
熟悉微积分的同学都知道, 导数是描述函数随自变量变化快慢的数学定义. 如果此时的函数为多元函数, 该如何描述函数的变化快慢? 设 是定义在 中的多元函数, 其自变量为 , 在其定义域 上, 函数 可以沿任意方向进行运动变化, 而且沿着不同方向通常有不同的变化率, 因此, 在描述多元函数变化快慢时, 我们不仅要描述其变化的大小, 还要描述其变化的方向. 在数学上, 我们有如下定义:设点 是函数 定义域中的一点, 是一个动点, 向量 是一个非零向量, 其方向与向量 始终保持一致, 用于描述 的方向. 如果以下极限存在, 我们便称其为函数 在点 沿着方向 的方向导数, 记为 , 它描述的便是函数 在 沿着 变化的快慢. 可能有的同学已经发现了, 这个定义与导数的定义类似, 都是函数的变化量与自变量变化量的比值的极限, 只是在多元函数情况下, 我们还需要指出函数变化时所沿袭的方向. 有了方向导数, 我们就可以来看看函数沿着什么方向变化最快最慢了.
方向导数与梯度的关系
方向导数和我们关心的梯度有什么关系呢? 我们先来回顾梯度的定义: 函数 在点 的梯度为梯度本身是一个向量, 其每个分量分别描述了函数 沿坐标系的每个数轴的变化率. 而由泰勒展开我们可以得到如下展开式其中, 是函数 在点 处的梯度. 由泰勒展开式(3)我们可以得到函数 在点 之间的函数变化量与梯度 之间的关系, 我们可由此构造出其方向导数与梯度之间的关系式. 对泰勒展开式(3)两边同时除以 并取极限, 可得其中, 为函数f在点 处的梯度, 令 , 由(4)可得
为何负梯度是函数值减小的最快方向
由(5)我们可以看出, 函数在点 处的沿方向 的方向导数, 等于函数在该点处的梯度对方向 上的单位向量的投影. 为了使这个结论更加清晰, 我们对(5)做进一步解析. 我们令 , 这被称为方向余弦, 可以用此单位向量来进行方向的描述, 显然有 . 则(5)可进一步表示成如下由向量內积公式, 可得由Schwarz公式和(7), 可得所以, 函数在点 处的最大方向导数是该点处的梯度, 即沿着梯度方向前进, 函数增长速率是最大的, 其速率为而当方向导数正好与梯度反向时, 即 , 则函数增加速率最小, 其速率为综上, 我们可以得出负梯度是函数值减小的最快方向, 其大小为(10)所示.值得注意的是, 那些与梯度(负梯度)垂直的方向导数, 即 , 函数沿着此类方向导数前进时不会发生变化, 而沿着此类方向导数前进便会形成等高线, 这也是为什么描述梯度的图像中, 梯度(负梯度)是与函数等高线垂直的.梯度与等高线垂直图
总结
SGD使用负梯度作为目标函数更新时的方向, 可在某一点处达到函数值下降最快的目的. 使用负梯度作为优化信息的算法有一个大类, 但基本的思想都是围绕着更加合理地利用负梯度信息进行展开.引用
1."方向导数, 梯度". 复旦大学http://math.fudan.edu.cn/gdsx/KEJIAN/方向导数和梯度.pdf2.Wikipedia contributors,"Gradient,"Wikipedia, The Free Encyclopedia,en.wikipedia.org/w/inde(accessed February 25, 2019)https://en.wikipedia.org/w/index.php?title=Gradient&oldid=884452517