池化意义: 池化层往往在卷积层后面,通过池化来降低卷积层输出的特征向量,同时改善结果(不易出现过拟合)。
一般池化方法
平均池化(averager pooling)
平均池化是对池化模板进行均值化操作,这能保留模板内的数据的整体特征从而背景信息。
优缺点:能很好的保留背景,但容易使得图片变模糊
from torch.nn import functional as F
scale1 = F.avg_pool2d(x, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
最大池化(max pooling)
最大池化是保留模板内信息的最大值,这是在提取纹理特征,保留更多的局部细节,具有模型平移不变性,意味着图片中的对象不在哪里都无关紧要,无论如何,它将被识别。
优缺点:能很好的保留纹理特征,一般现在都用max-pooling而很少用mean-pooling
from torch.nn import functional as F
scale1 = F.max_pool2d(x, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
随机池化(stochastic pooling)
模板内元素值大的被选中的概率也大,这种方法既不会一直选择max值。但这种池化效果并不稳定即不能保证池化的结果一定是好的,可能产生更坏的结果。随机池化伴随着概率矩阵,每个元素对应一个被选取的概率,模板内概率和为1。
优点:方法简单,泛化能力更强(带有随机性)
全局池化方法
自适应平均池化(global average pooling)/全局平均池化
全局平均池化一般是用来替换全连接层。
from torch.nn import functional as F
scale = F.adaptive_avg_pool2d(x, output_size=(1, 1))
#torch.nn.AdaptiveAvgPool2d( output_size)其中output_size表示输出HxW正常设为HxW=1x1=(1, 1)
自适应最大池化(global average pooling)/全局最大池化
取每个feature map的最大值:
from torch.nn import functional as F
scale = F.adaptive_avg_pool2d(x, output_size=(1, 1))
#torch.nn.AdaptiveMaxPool2d(output_size, return_indices= False)
优点:直接通过全局池化+softmax进行分类,它的优点是更加符合卷积层最后的处理,相比全连接层的处理方式,大幅度减少网络参数(对于分类网络,全连接的参数占了很大比列),同时理所当然的减少了过拟合现象,此外全局池化还部分保留来输入图像的空间结构信息,赋予了输出feature maps的每个通道类别意义,剔除了全连接黑箱操作。
总结:
平均池化:计算图像区域的平均值作为该区域池化后的值。
最大池化:选图像区域的最大值作为该区域池化后的值。
其他池化方法
重叠池化(overlapping pooling)
sizeX>stride,相邻池化窗口之间会有重叠区域,如果步长和池化模板尺寸不相等且两个池化区域存在重叠,这种池化方法称之为重叠池化。
金字塔池化(spatial pyramid pooling)
一般CNN对输入的图像尺寸有着特定的要求,因为这是全卷积层的神经元个数对输入的特征维度是固定的。但采用金字塔池化,则可以将任意图像的卷积特征图像转化为所指定维度的特征向量输入给全卷积层。
先让图像进行卷积操作,然后转化成维度相同的特征输入到全连接层,可以让CNN处理任意尺度的图像,还能避免cropping和warping操作,导致一些信息的丢失。空间金字塔池化是将池化层转化为多尺度的池化,即利用多个不同大小尺度的池化模板来进行池化操作。
选择法则
浅层首选ReLu激活函数,如果效果不好可以选leaky ReLu或ELU激活函数。
深层可以选swish、wish等激活函数。
分类层选sigmoid、sigmax、tanh激活函数,他们一般用于概率值输出(注意力机制)。
轻量级模型可以换做h-swish、h-sigmoid等平滑函数。