imu梯度下降算法_mob6454cc76bc4a的技术博客_51CTO博客

imu梯度下降算法

关注编程艺术之光

文章目录

SGD
Momentum
Nesterov Accelerated Gradient (NAG)
AdaGrad
AdaDelta/RMSprop
Adam (Adaptive moment estimation)
演化示意图

imu梯度下降算法

转载

编程艺术之光 2024-10-13 08:44:39

文章标签 imu梯度下降算法深度学习 python 梯度下降自适应 文章分类 深度学习人工智能

提起深度学习，没有人不知道梯度下降 (Gradient descent, GD)。但是我们用的往往是Adam优化器。从普通的GD到Adam，经历了哪些改进？Adam的优势又在哪？

SGD

SGD (stochastic Gradient Descent) 和GD是两个极端：前者每次只根据一个样本的梯度进行参数更新。由于这个参数是随机选取的，所以叫做随机梯度下降；后者则一次性地根据全部样本的梯度更新参数。
为了调和二者，我们平常用Mini-batch SGD：取一小部分样本（称为一个batch，batch size根据数据集大小可以取8, 16, 32, 64等），计算梯度下降方向的平均值，更新参数。
好，以下我们提到的优化改进，都是基于Mini-batch SGD的框架的（每次在一个batch上计算梯度）。

Momentum

第一个思路是引入一阶动量。t时刻的梯度下降方向，不只由当前的梯度方向决定，还要受到此前累积的梯度方向的“制衡”。

imu梯度下降算法_深度学习

这里的 $imu梯度下降算法_深度学习_02$ 就是Momentum项，它是梯度的指数移动平均值 (Exponential Moving Average, EMA)，约等于最近 $imu梯度下降算法_imu梯度下降算法_03$ 个时刻的梯度平均值。

Momentum的引入会减小震荡，加快收敛速度。

imu梯度下降算法_自适应_04

Nesterov Accelerated Gradient (NAG)

Momentum的公式中，当前时刻下降方向主要由累积梯度决定，当前时刻的梯度方向只占一小部分。NAG的思路是，既然如此，与其计算当前梯度方向，不如看看如果跟着累积梯度走了一步，那个时候的下降方向是什么。

imu梯度下降算法_梯度下降_05

与Momentum的对比：

imu梯度下降算法_python_06

AdaGrad

AdaGrad引入了自适应学习率：神经网络中包含大量参数，但有些经常更新，有些不经常更新。对于经常更新的参数，我们已经积累了关于它的大量知识，不希望它被少数样本影响太大，学习率要小一些；对于不经常更新的参数，对于它的信息太少，希望从更新中多学习知识，学习率要大一些。

imu梯度下降算法_python_07

$imu梯度下降算法_python_08$ 衡量第 $imu梯度下降算法_自适应_09$ 个参数的更新“频率”， $imu梯度下降算法_python_08$ 越大，对应参数的学习率越小。

为了防止分母为0，特意加了一个小量 $imu梯度下降算法_深度学习_11$ ，一般取 $imu梯度下降算法_自适应_12$

AdaGrad的思路很好，但 $imu梯度下降算法_python_08$ 一项是单调递增的，随着训练过程深入，学习率不断减小，可能导致后来参数无法更新，训练提前结束。

AdaDelta/RMSprop

AdaDelta作为AdaGrad的扩展，它没有累积全部历史梯度，而是只关注过去一段时间窗口的下降梯度。没错，指数移动平均值又要上场了。

imu梯度下降算法_imu梯度下降算法_14

Adam (Adaptive moment estimation)

Adam = Mometum + AdaDelta/RMSprop.
Adam在自适应学习率的基础上引入了Mometum，综合了二者的优点。

imu梯度下降算法_自适应_15

演化示意图

imu梯度下降算法_深度学习_16

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：presentation 只在副屏上顯示

下一篇：易语言 mongodb多线程

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册