06-ResNet学习笔记
- 前言
- 一、ResNet的shortcut connection与Highway Net有什么差别?
- 二、ResNet的训练曲线与GoogLenet的曲线为什么有明显差异?是什么原因导致的?
- 三、ResNet的shortcut connection有哪三种形式,请简述,并思考是否有其他方式?(提示:后面的模型会用concat,而不是相加)
- 四、读完该论文,对你的启发点有哪些?
- 五、实验:在cifar-10上训练一个resnet56, 将训练曲线,混淆矩阵图等信息保存下来
前言
以下仅是学习论文过程中的笔记
一、ResNet的shortcut connection与Highway Net有什么差别?
shortcut connection 和 Highway Net 在结构上很相似, Highway Net 引入门控单元,增加了额外的训练参数 而 shortcut connection 不需要额外的训练参数
二、ResNet的训练曲线与GoogLenet的曲线为什么有明显差异?是什么原因导致的?
代码如下(示例):ResNet:一部分原因是随机梯度下降法和学习率调整策略,学习在第92和136 epoch时除于10,会造成误差骤降
GoogLenet:训练采用的学习率策略为 每8个epoch下降4%,所以loss曲线很平滑
如下图所示:左边为GoogLenet,右边为ResNet
三、ResNet的shortcut connection有哪三种形式,请简述,并思考是否有其他方式?(提示:后面的模型会用concat,而不是相加)
有三种形式,分别为:
1.全0填充:维度增加部分采用0来填充
2.网络层映射:当维度发生变化时,通过1*1卷积降特征图映射到相同的维度
3.所有shortcut均通过网络层映射
个人猜想:在维度变化时,不同维度拼接在一起,就如GoogLenet中inception的拼接操作
四、读完该论文,对你的启发点有哪些?
1.深层网络退化问题启发了残差结构的思想
2.残差结构解决了深层网络退化问题,当网络深度很深时,残差网络取得很好的准确性
3.模型设计原则:处理相同大小的特征图卷积核数量一样;特征图分辨率下降时,通道数翻倍
4.resnet的模型集成采用6种不同深度的resnet结构,可借鉴其思路
五、实验:在cifar-10上训练一个resnet56, 将训练曲线,混淆矩阵图等信息保存下来
实验配置与文章在cifar-10配置的一样,结果比论文中展示的错误率低了一点点,如图所示: