AlexNet
AlexNet是在IMAGENET比赛中第一个获奖的CNN结构。
VGGNet
VGGNet和AlexNet实际上都是对最传统的CNN进行重复堆叠的实践,将效果较好的结构记录下来方便以后继续使用,常用的有vgga(11层),vgg16和vgg19。结构如下:
(示意图来自于cs231n的课件,有一点小问题,vgg16应该是3个conv层后接pool)
ResNet
论文原文 https://arxiv.org/abs/1512.03385
ResNet的层数大大加深,常用的有Res50(50层)和Res101(101层)。
ResNet的提出,是为了解决这样一个问题:是否简单地将卷积层堆叠(stack)就能训练出效果更好的网络?如果是这样,那么越深的网络就应该有更好的效果。但是随着网络的加深,出现了梯度消失和梯度爆炸的问题。正则化的初始化值和正则化层(Batch Normalization)方法的提出解决了这些问题。
但是,当更深的网络能够收敛,另一个问题暴露了:随着网络深度的不断加深,准确率开始达到饱和,不会再随着网络深度的增加而增加,反而会急剧下降。这种现象并不是由于过拟合而产生的,在一个恰好的网络上增加更多的层数只会增加错误率。
对此作者提出了残差映射的概念:令H(x) = F(x)+x 。如下图所示,其中F(x)表示权重层的简单stack,在文中使用两层或三层的stack(只使用1层没有明显的效果),F(x)于x相加可以用”shortcut connection”的方式来实现。
文中认为,较深的网络不应该比较浅的网络效果更差(实际上实验表明会出现这样的情况,如下图所示),因此残差网络将网络的处理与输入相加,**如果网络已经达到了足够好的效果,那么再增加层数时,只要优化中使得F(x)=0,就不会降低网络的表现**。事实上,ResNet在深度大幅增加后能够很容易地获得准确率的提升。
ResNet的参数个数比VGG更少,但是能够取得更好的效果。