SENet
《sequeese-and-excitation networks》
—挤压与激励网络
作者:Jie Hu,Li Shen,etc.
单位:中国科学院大学与牛津大学
发表会议及时间:CVPR 2019
补充:这篇文章打开了计算机视觉在注意力机制方面新的思路
一 论文导读
1.池化
2.注意力模型
3.讨论和总结
1.池化
池化一般包括最大池化和均值池化,2*2的滤波器,stride为2
max-pooling:对局部接受域中的所有值求最大值
Average pooling:对局部接受域中的所有值求均值
在本文中使用了全局池化:
Global pooling:"global pooling"就是pooling的滑窗size和整张feature map的size一样大。这样,每个W*H*C的feature map输入就会被转化为1*1*C输出。因此,其实也等同于每个位置权重都为1/(W*H)的FC层操作。
传统池化的缺点:过于粗暴,操作复杂
全局池化的优点:
- 采用Global Pooling以简化计算
- 增大conv的stride以免去附加的pooling操作
区别:global average pooling 与average pooling 的差别就在‘global’上。 global与local在字面上都是用来形容pooling窗口区域的。local是取feature map的一个子区域求平均值,然后滑动这个子区域;global是对整个feature map求平均值。感觉基本都是废话。
全连接存在的问题:参数量过大,降低了训练的速度,且很容易过拟合
(全句池化和全连接比较容易搞混,其主要差别就是连接的神经元差一个量级)
1)可以更好的将类别与最后一个卷积层的特征图对应起来(每一个通道对应一种类别,这样每一张特征图都可以看成是该类别对应的类别置信图)
2)降低参数量,可防止在该层过拟合
3)整合了全局空间信息
全句池化和全连接的比较
全连接层将卷积层展开成向量之后对每个feature map进行分类,而GAP将上诉两个过程合二为一,同时进行。
2.注意力模型
注意力机制:
Attention机制通俗的讲就是把注意力集中放在重要的点上,而忽略其他不重要的点上,而忽略其他不重要的因素。其中重要程度的判断取决于应用场景。
计算机视觉中的注意力机制的主要是想让系统学会把注意力放在感兴趣的地方,另一方面则是注意力机制能够反过来帮助我们去理解神经网络看到世界
上图形象化展示了人类在看到一副图像时是如何高效分配有限的注意力资源的,其中红色区域表明视觉系统更关注的目标,很明显对图所示的场景,人们会把注意力更多投入到人的脸部,文本的标题以及文章首句等位置。
深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。
人类的视觉注意力,使得我们能够在图片的“低解析度”背景下,更加关注具有“高解析度或辨识度”(High resolution)的特定区域(如黄色区域中狗的耳朵),然后逐渐调整焦点,移动到另一只耳朵,眼睛,鼻子等,最后进行推断整张图片的信息。
同样地,我们可以解释一句话或者上下文中词与词之间的关系。当看到“eating"这个词时,我们会期望在后面不远的位置看到”食物“描述的词。下图中有色词表示食物,但并不是每个词都与“eating"直接强相关。
注意力机制包含两个部分:
注意力机制需要决定整段输入的哪个部分需要更加关注;从关键的部分进行特征提取,得到重要的信息。
按注意力的关注域,可分为:
- 空间域(spatial domain)
- 通道域(channel domain)
- 层域(layer domain)
- 混合域(mixed domain)
- 时间域(time domain)
注意力机制可以帮助模型为输入X的各个部分分配不同的权重,提取更关键、重要信息,使模型能够做出更准确的判断,同时不会给模型的计算和存储带来更多的消耗。
Channel Attention:(通道注意力模型)
哪个域的注意力模型哪个量就变化,其他的保持不变,满足输入输出的规格不变(H*W*C),都有激活函数,且都有乘(点乘或矩阵乘法)
Spacial Attention:(空间注意力模型)
3.讨论和总结
-
如何理解池化的操作原理
掌握池化的定义,认真阅读ppt的内容 -
如何区别全局平均池化与普通平均池化
理解平均池化和全局平均池化的概念,区分全局和局部的概念 -
如何理解注意力机制
仔细阅读注意力的定义,通过在例子中去理解注意力的含义
二 论文精读
1.摘要
2.引言
3.相关方法
1.摘要
1.讲述了CNN网络通过局部感受野内的空间信息和通道信息来提取信息特征
2.本文引入了一种结构,专注于通道信息,提出了一种新颖的架构单元,称之为”Squeeze-and-Excitation"(SE)块
3.SEnet在ILSVRC 2017年的比赛中获得了第一名
2.引言
路线:
- CNN在局部接收域内融合空间信息和信道信息
- 捕捉层次模式并获得全局理论接受域
- 计算机视觉研究的一个新方向:只捕捉图像中对给定任务最显著的属性,从而提高性能
- 将学习机制集成到网络中,帮助捕获特征之间的空间相关性,并列举了Inception的例子
- 引出论文在另一个方向的发展:通道之间的关系
- 提出Squeeze-and-Excitation(SE)block(挤压与激励模块)
- 提出一种机制,允许网络执行特征重新校准,学习使用全局信息,选择性地强调信息特征,并抑制不太有用的特征
- 叠加一组SE块,就构造一个SE网络(SEnet)
- SEnet不仅在ImageNet数据集上实现很好的效果,而且在其他数据集也实现了很好的效果
这方面的论文:主要方面是突出重要信息,但另一个思路抑制不重要的特征信息,也是很好的一个思路
SE模块:
Ftr表示的是一个卷积层,实现特征映射,特征U通过挤压操作传递,挤压操作通过聚合跨空间维度(H*W)的特征映射生成通道描述符,因而可以产生一个全局分布的嵌入的通道特征响应,允许来自网络的全局接受域的信息被它的所有层使用。之后是激励操作,该操作采用简单的自选门机制的形式,以嵌入作为输入,并产生每个通道调制权值的集合。这些权值被应用到特征映射U中,生成SE块的输出,可以直接输入到网络的后续层中。
问题:CNN搭建的网络是一项艰巨的任务,需要新的超参数以及层配置
SE模块的优点:
- 结构简单,可以用SE模块替换最先进的体系结构中的一些结构从而有效地提高性能
- SE块在计算上只会轻微的增加模型的复杂性和负担
3.相关方法
- 更深的网络框架:通过列举些网络结构,反映出通道关系可以被表示为具有局部接受域的与实例无关的函数的组合,相反使用全局信息为单元提供一种机制来显式地建模通道之间的动态、非线性依赖关系,可以简化学习过程,并显著增强网络的表示能力
- 算法结构关系:寻求自动学习网络结构模型,列举了一些研究的算法,SE块可以作为这些研究算法的原子构建块,并在并行工作中被证明是非常有效的
- 注意力和门机制:注意力可以被解释为将可用的计算资源分配给信号中信息量最大的部分的一种方法,说明了注意力一些应用,本文提出的SE包含一个轻量级的门控制。该机制通过以一种计算机效率高的方式建模信息道关系来增强网络的表示能力。
4.模型结构
- Squeeze(Fsq):按空间维度来进行特征压缩,将每个二维的特征通道一维向量,该向量某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野
- Excitation(Fex):类似于循环神经网络中门的机制。通过参数w来为每个特征通道生产权重,其中参数w被学习用来显示地建模特征通道间的相关性
- Scale(Fscale):将Excitation的输出的权重看做是进过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征图的重标定。
- SEnet:SE块插入到VGGnet每个卷积层后面的非线性激活函数后,也可以用在其他的网络结构中。
SE-Inception:将SE模块中的Ftr换成Inception模块
SE-Resnet:将SE模块中的Ftr插入在resnet模块的残差和求和之间
SE块还可以嵌入在其他网络中,构成其他网络,因此说明了SE网络的迁移性好,且具有很强的灵活性
对比ResNet、SE-ResNet、SE-ResNeXt-50模块结构,表中的方括号表示残差块的形状,方括号表示堆叠次数,fc后面放入括号表示完全连接的输出维度
SEnet主要在通道域做出了贡献,在空间域的贡献不大
DANet在空间域上做出了贡献:
绿色的是空间域,蓝色是的通道域
这种框架称为双注意网络(DANet)
用于自然场景图像分割,引入了一种自注意力机制来分别捕捉空间和通道尺寸中的视觉特征依赖性
绿色块的空间域注意力模型,也称位置注意力模型:
该模块将更广泛的上下文信息编码到局部特征中,从而增强其表示能力。
通道注意力模型:
三 代码实现
import torch.nn as nn
from torch.hub import load_state_dict_from_url
from torchvision.models import ResNet
from torch import nn
from sklearn.linear_model import LogisticRegression
import torch.nn as nn
import torch.nn.functional as F
class SELayer(nn.Module):
def __init__(self, channel, reduction=16):
super(SELayer, self).__init__()
self.avg_pool = nn.AdaptiveAvgPool2d(1)
self.fc = nn.Sequential(
nn.Linear(channel, channel // reduction, bias=False),
nn.ReLU(inplace=True),
nn.Linear(channel // reduction, channel, bias=False),
nn.Sigmoid()
)
def forward(self, x):
b, c, _, _ = x.size()
y = self.avg_pool(x).view(b, c)
y = self.fc(y).view(b, c, 1, 1)
return x * y.expand_as(x)
def conv3x3(in_planes, out_planes, stride=1):
return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride, padding=1, bias=False)
class SEBasicBlock(nn.Module):
expansion = 1
def __init__(self, inplanes, planes, stride=1, downsample=None, groups=1,
base_width=64, dilation=1, norm_layer=None,
*, reduction=16):
super(SEBasicBlock, self).__init__()
self.conv1 = conv3x3(inplanes, planes, stride)
self.bn1 = nn.BatchNorm2d(planes)
self.relu = nn.ReLU(inplace=True)
self.conv2 = conv3x3(planes, planes, 1)
self.bn2 = nn.BatchNorm2d(planes)
self.se = SELayer(planes, reduction)
self.downsample = downsample
self.stride = stride
def forward(self, x):
residual = x
out = self.conv1(x)
out = self.bn1(out)
out = self.relu(out)
out = self.conv2(out)
out = self.bn2(out)
out = self.se(out)
if self.downsample is not None:
residual = self.downsample(x)
out += residual
out = self.relu(out)
return out
class SEBottleneck(nn.Module):
expansion = 4
def __init__(self, inplanes, planes, stride=1, downsample=None, groups=1,
base_width=64, dilation=1, norm_layer=None,
*, reduction=16):
super(SEBottleneck, self).__init__()
self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)
self.bn1 = nn.BatchNorm2d(planes)
self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=stride,
padding=1, bias=False)
self.bn2 = nn.BatchNorm2d(planes)
self.conv3 = nn.Conv2d(planes, planes * 4, kernel_size=1, bias=False)
self.bn3 = nn.BatchNorm2d(planes * 4)
self.relu = nn.ReLU(inplace=True)
self.se = SELayer(planes * 4, reduction)
self.downsample = downsample
self.stride = stride
def forward(self, x):
residual = x
out = self.conv1(x)
out = self.bn1(out)
out = self.relu(out)
out = self.conv2(out)
out = self.bn2(out)
out = self.relu(out)
out = self.conv3(out)
out = self.bn3(out)
out = self.se(out)
if self.downsample is not None:
residual = self.downsample(x)
out += residual
out = self.relu(out)
return out
def se_resnet18(num_classes=5):
"""Constructs a ResNet-18 model.
Args:
pretrained (bool): If True, returns a model pre-trained on ImageNet
"""
model = ResNet(SEBasicBlock, [2, 2, 2, 2], num_classes=num_classes)
model.avgpool = nn.AdaptiveAvgPool2d(1)
return model
def se_resnet34(num_classes=5):
"""Constructs a ResNet-34 model.
Args:
pretrained (bool): If True, returns a model pre-trained on ImageNet
"""
model = ResNet(SEBasicBlock, [3, 4, 6, 3], num_classes=num_classes)
model.avgpool = nn.AdaptiveAvgPool2d(1)
return model
def se_resnet50(num_classes=5, pretrained=False):
"""Constructs a ResNet-50 model.
Args:
pretrained (bool): If True, returns a model pre-trained on ImageNet
"""
model = ResNet(SEBottleneck, [3, 4, 6, 3], num_classes=num_classes)
model.avgpool = nn.AdaptiveAvgPool2d(1)
if pretrained:
model.load_state_dict(load_state_dict_from_url(
"https://github.com/moskomule/senet.pytorch/releases/download/archive/seresnet50-60a8950a85b2b.pkl"))
return model
def se_resnet101(num_classes=5):
"""Constructs a ResNet-101 model.
Args:
pretrained (bool): If True, returns a model pre-trained on ImageNet
"""
model = ResNet(SEBottleneck, [3, 4, 23, 3], num_classes=num_classes)
model.avgpool = nn.AdaptiveAvgPool2d(1)
return model
def se_resnet152(num_classes=5):
"""Constructs a ResNet-152 model.
Args:
pretrained (bool): If True, returns a model pre-trained on ImageNet
"""
model = ResNet(SEBottleneck, [3, 8, 36, 3], num_classes=num_classes)
model.avgpool = nn.AdaptiveAvgPool2d(1)
return model
四 问题思索