**

梯度下降法公式推导

**

梯度下降法简单的来说就是一种寻找最小值的点的方法,是机器学习和深度学习中常用的优化器,具体又可分为批量梯度下降(BGD)、随机梯度下降(SGD)和小批量梯度下降(MBGD),本文不对这些问题做讨论只是从数学角度来推导神经网络中的数学武器:梯度下降算法,本文是在学习涌井良幸先生的”深度学习的数学”一书后的笔记,仅用作个人学习和复习,由于笔者也是初学,所以难免会有各种错误,望各位大佬批评指正。

首先以二维函数举例:

梯度下降法求偏导 梯度下降推导_梯度下降法求偏导


对这个函数使用梯度下降法的实质就是求如何沿最快路径下降到最小值。

第一步研究当x和y变化是的z的变化情况:

梯度下降法求偏导 梯度下降推导_人工智能_02


式2的近似公式为:

梯度下降法求偏导 梯度下降推导_机器学习_03

将式3用向量公式表示:

梯度下降法求偏导 梯度下降推导_算法_04


梯度下降法求偏导 梯度下降推导_神经网络_05


由向量内积公式有:

梯度下降法求偏导 梯度下降推导_神经网络_06


梯度下降法求偏导 梯度下降推导_算法_07


由于向量A和向量B方向相反所以必定存在一个正的微小常数η满足下式:

梯度下降法求偏导 梯度下降推导_人工智能_08


式9即为二维函数的梯度下降法公式

将式9从二维推广到多维:

梯度下降法求偏导 梯度下降推导_算法_09


引入哈密顿算子和位移向量:

梯度下降法求偏导 梯度下降推导_人工智能_10


这样式10就变为了:

梯度下降法求偏导 梯度下降推导_人工智能_11


式13即为梯度下降法的通用公式,式中的η可以看作步长,在神经网络中即为学习率。

至此,简单的梯度下降法公式推导完成,当然,本文还有许多其他东西未涉及到,只是简单的数学推导。本文是我的第一篇博文,是一个分享,也是对自己学习的记录,方便以后复习,后续也会继续分享一些自己之前做的笔记和新学习的内容,同时我也计划做一个专题,专门用来记录在学习李航老师的“统计学习方法“一书过程中的体会和心得,欢迎大家持续关注和批评指正。