这个问题我看到论坛也有人在问,但是大神回答说自己跑一遍代码就会了,我想这个东西只可意会,不可言传,于是我动手算了一波,这次算是真正理解了。
为了方便各位学习,我就把计算过程展示在这里,大家就不用自己去苦思冥想了。
这里先写一个示例:
运行结果是:
计算过程如下:
从上图计算过程可以看出,params.grad 其实是batch中所有样本的grad总和,所以这个时候除以batch_size就是相当于取一个平均值,这样就算下一次传入的batch_size改变了,最后也不会影响得到的平均数。
namespace123 博主文章分类:深度学习 ©著作权
文章标签 深度学习 pytorch python param.grad 随机梯度下降 文章分类 Html/CSS 前端开发
这个问题我看到论坛也有人在问,但是大神回答说自己跑一遍代码就会了,我想这个东西只可意会,不可言传,于是我动手算了一波,这次算是真正理解了。
为了方便各位学习,我就把计算过程展示在这里,大家就不用自己去苦思冥想了。
这里先写一个示例:
运行结果是:
计算过程如下:
从上图计算过程可以看出,params.grad 其实是batch中所有样本的grad总和,所以这个时候除以batch_size就是相当于取一个平均值,这样就算下一次传入的batch_size改变了,最后也不会影响得到的平均数。
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M