方向导数

熟悉微积分的同学都知道, 导数是描述函数随自变量变化快慢的数学定义. 如果此时的函数为多元函数, 该如何描述函数的变化快慢? 设 为什么负梯度是函数值减小的最快方向_Python 是定义在 为什么负梯度是函数值减小的最快方向_Python_02 中的多元函数, 其自变量为 为什么负梯度是函数值减小的最快方向_Python_03, 在其定义域 为什么负梯度是函数值减小的最快方向_Python_04 上, 函数 为什么负梯度是函数值减小的最快方向_Python_05 可以沿任意方向进行运动变化, 而且沿着不同方向通常有不同的变化率, 因此, 在描述多元函数变化快慢时, 我们不仅要描述其变化的大小, 还要描述其变化的方向. 在数学上, 我们有如下定义:设点 为什么负梯度是函数值减小的最快方向_Python_06 是函数 为什么负梯度是函数值减小的最快方向_Python_05 定义域中的一点, 为什么负梯度是函数值减小的最快方向_Python_08 是一个动点, 向量 为什么负梯度是函数值减小的最快方向_Python_09 是一个非零向量, 其方向与向量 为什么负梯度是函数值减小的最快方向_Python_10 始终保持一致, 用于描述 为什么负梯度是函数值减小的最快方向_Python_11 的方向. 如果以下极限为什么负梯度是函数值减小的最快方向_Python_12存在, 我们便称其为函数 为什么负梯度是函数值减小的最快方向_Python_05 在点 为什么负梯度是函数值减小的最快方向_Python_14 沿着方向 为什么负梯度是函数值减小的最快方向_Python_09 的方向导数, 记为 为什么负梯度是函数值减小的最快方向_Python_16 , 它描述的便是函数 为什么负梯度是函数值减小的最快方向_Python_05 在 为什么负梯度是函数值减小的最快方向_Python_02 沿着 为什么负梯度是函数值减小的最快方向_Python_19 变化的快慢. 可能有的同学已经发现了, 这个定义与导数的定义类似, 都是函数的变化量与自变量变化量的比值的极限, 只是在多元函数情况下, 我们还需要指出函数变化时所沿袭的方向. 有了方向导数, 我们就可以来看看函数沿着什么方向变化最快最慢了.


方向导数与梯度的关系

方向导数和我们关心的梯度有什么关系呢? 我们先来回顾梯度的定义: 函数 为什么负梯度是函数值减小的最快方向_Python_20 在点 为什么负梯度是函数值减小的最快方向_Python_21 的梯度为
为什么负梯度是函数值减小的最快方向_Python_12梯度本身是一个向量, 其每个分量分别描述了函数 为什么负梯度是函数值减小的最快方向_Python_23 沿坐标系的每个数轴的变化率. 而由泰勒展开我们可以得到如下展开式为什么负梯度是函数值减小的最快方向_Python_24其中, 为什么负梯度是函数值减小的最快方向_Python_14 是函数 为什么负梯度是函数值减小的最快方向_Python_05 在点 为什么负梯度是函数值减小的最快方向_Python_27 处的梯度. 由泰勒展开式(3)我们可以得到函数 为什么负梯度是函数值减小的最快方向_Python_05 在点 为什么负梯度是函数值减小的最快方向_Python_29 之间的函数变化量与梯度 为什么负梯度是函数值减小的最快方向_Python_27 之间的关系, 我们可由此构造出其方向导数与梯度之间的关系式. 对泰勒展开式(3)两边同时除以 为什么负梯度是函数值减小的最快方向_Python_16 并取极限, 可得为什么负梯度是函数值减小的最快方向_Python_12其中, 为什么负梯度是函数值减小的最快方向_Python_33 为函数f在点 为什么负梯度是函数值减小的最快方向_Python_34 处的梯度, 令 为什么负梯度是函数值减小的最快方向_Python_35 , 由(4)可得为什么负梯度是函数值减小的最快方向_Python_12


为何负梯度是函数值减小的最快方向

由(5)我们可以看出, 函数在点 为什么负梯度是函数值减小的最快方向_Python_02 处的沿方向 为什么负梯度是函数值减小的最快方向_Python_09 的方向导数, 等于函数在该点处的梯度对方向 为什么负梯度是函数值减小的最快方向_Python_09 上的单位向量的投影. 为了使这个结论更加清晰, 我们对(5)做进一步解析. 我们令 为什么负梯度是函数值减小的最快方向_Python_40 , 这被称为方向余弦, 可以用此单位向量来进行方向的描述, 显然有 为什么负梯度是函数值减小的最快方向_Python_41. 则(5)可进一步表示成如下
由向量內积公式, 可得由Schwarz公式和(7), 可得所以, 函数在点  处的最大方向导数是该点处的梯度, 即沿着梯度方向前进, 函数增长速率是最大的, 其速率为而当方向导数正好与梯度反向时, 即  , 则函数增加速率最小, 其速率为为什么负梯度是函数值减小的最快方向_Python_12综上, 我们可以得出负梯度是函数值减小的最快方向, 其大小为(10)所示.值得注意的是, 那些与梯度(负梯度)垂直的方向导数, 即 为什么负梯度是函数值减小的最快方向_Python_43 , 函数沿着此类方向导数前进时不会发生变化, 而沿着此类方向导数前进便会形成等高线, 这也是为什么描述梯度的图像中, 梯度(负梯度)是与函数等高线垂直的.为什么负梯度是函数值减小的最快方向_Python_44梯度与等高线垂直图




总结

SGD使用负梯度作为目标函数更新时的方向, 可在某一点处达到函数值下降最快的目的. 使用负梯度作为优化信息的算法有一个大类, 但基本的思想都是围绕着更加合理地利用负梯度信息进行展开.

引用

1."方向导数, 梯度". 复旦大学http://math.fudan.edu.cn/gdsx/KEJIAN/方向导数和梯度.pdf2.Wikipedia contributors,"Gradient,"Wikipedia, The Free Encyclopedia,en.wikipedia.org/w/inde(accessed February 25, 2019)https://en.wikipedia.org/w/index.php?title=Gradient&oldid=884452517