文章目录

  • 批训练
  • 优点
  • 动量梯度下降法(gradient descent with momentum)优化器
  • RMSProp优化器
  • 优点
  • 自适应矩估计 Adam 优化器
  • 优点


批训练

把训练数据切割成很多个 batch ,接着一个 batch 一个 batch 的喂给模型;

神经网络改进lda模型 神经网络模型优化_神经网络

优点

  1. 提高训练速度;
  2. 对训练过程引入随机性

这个随机性最重要,可以有效解决局部最优,我现在切分成很多很多 batch ,那么每个 batch 的初始位置随机性很大,就好像撒豆子,每个地方都撒一点,就不容易卡在某一个小坑。

神经网络改进lda模型 神经网络模型优化_人工智能_02


红色部分表示 batch 数据,这样就可以几乎踩到每一个局部最优(绿色),进而找到全局最优。

动量梯度下降法(gradient descent with momentum)优化器

随机性过大有个坏处,不是每次迭代都往好的方向走,会导致计算时间过长,这个时候可以引入参数 β,来引入惯性。

神经网络改进lda模型 神经网络模型优化_神经网络改进lda模型_03


β越大,(1-β)越小,dW 对 神经网络改进lda模型 神经网络模型优化_最优解_04 的影响也就越小,相当于 神经网络改进lda模型 神经网络模型优化_最优解_04 惯性越大,越不易改变,神经网络改进lda模型 神经网络模型优化_人工智能_06

RMSProp优化器

第一个式子是 dW2,和上一个优化器 神经网络改进lda模型 神经网络模型优化_人工智能_07 不一样。

W 更新的时候,改变量除以根号神经网络改进lda模型 神经网络模型优化_神经网络改进lda模型_08

神经网络改进lda模型 神经网络模型优化_深度学习_09


相比于上一个纯粹惯性,跌跌撞撞走向全局最优解,这一个优化器会更加平稳地走向全局最优解。

优点

较为平稳

自适应矩估计 Adam 优化器

可以简单理解为前面两个优化器的结合,引入参数
神经网络改进lda模型 神经网络模型优化_最优解_10
神经网络改进lda模型 神经网络模型优化_神经网络改进lda模型_11经常取0.9, 神经网络改进lda模型 神经网络模型优化_最优解_12经常取0.999,
其中 神经网络改进lda模型 神经网络模型优化_神经网络_13,是一个很小的数,经常取 1e-8,1e-9,来防止该项爆炸。
神经网络改进lda模型 神经网络模型优化_神经网络改进lda模型_14 为迭代次数,相当于考虑步伐 ,由下面式子可知,使得 神经网络改进lda模型 神经网络模型优化_最优解_04, 神经网络改进lda模型 神经网络模型优化_人工智能_06改变时,在初始时刻步伐较大,快速向全局最优解进发,在最后就小心谨慎一点,慢慢向全局最优解挪动。

此外参数并不一定是这些值,还需要大佬们仔细调整。

神经网络改进lda模型 神经网络模型优化_神经网络_17

优点

适合大规模数据,还可以解决高噪音,稀疏梯度等问题。