深度学习目标检测:SSD
(1)采用多尺度特征图用于检测
所谓多尺度采用大小不同的特征图,CNN网络一般前面的特征图比较大,后面会逐渐采用stride=2的卷积或者pool来降低特征图大小,这正如图3所示,一个比较大的特征图和一个比较小的特征图,它们都用来做检测。这样做的好处是比较大的特征图来用来检测相对较小的目标,而小的特征图负责检测大目标,如图4所示,8x8的特征图可以划分更多的单元,但是其每个单元的先验框尺度比较小。
(2)采用卷积进行检测
与Yolo最后采用全连接层不同,SSD直接采用卷积对不同的特征图来进行提取检测结果。对于形状
为m* n * p 的特征图,只需要采用3* 3 * p 这样比较小的卷积核得到检测值。
(3)设置先验框
在Yolo中,每个单元预测多个边界框,但是其都是相对这个单元本身(正方块),但是真实目标的
形状是多变的,Yolo需要在训练过程中自适应目标的形状。而SSD借鉴了Faster R-CNN中anchor
的理念,每个单元设置尺度或者长宽比不同的先验框,预测的边界框(bounding boxes)是以这
些先验框为基准的,在一定程度上减少训练难度。一般情况下,每个单元会设置多个先验框,其尺
度和长宽比存在差异,如图5所示,可以看到每个单元使用了4个不同的先验框,图片中猫和狗分别
采用最适合它们形状的先验框来进行训练,后面会详细讲解训练过程中的先验框匹配原则。
对于每个单元的每个先验框,其都输出一套独立的检测值,对应一个边界框,主要分为两个部分。
第一部分是各个类别的置信度或者评分,值得注意的是SSD将背景也当做了一个特殊的类别,如果
检测目标共有c 个类别,SSD其实需要预测c+1 个置信度值,其中第一个置信度指的是不含目标
或者属于背景的评分。后面当我们说c 个类别置信度时,请记住里面包含背景那个特殊的类别,即
真实的检测类别只有c-1 个。在预测过程中,置信度最高的那个类别就是边界框所属的类别,特别
地,当第一个置信度值最高时,表示边界框中并不包含目标。第二部分就是边界框的location,包
含4个值(cx, cy, w, h) ,分别表示边界框的中心坐标以及宽高。但是真实预测值其实只是边界框相
对于先验框的转换值:
SSD采用VGG16作为基础模型,然后在VGG16的基础上新增了卷积层来获得更多的特征图以用于检测。SSD的网络结构如图5所示。上面是SSD模型,下面是Yolo模型,可以明显看到SSD利
用了多尺度的特征图做检测。模型的输入图片大小是300300。
SSD采用VGG16做基础模型,首先VGG16是在ILSVRC CLS-LOC数据集预训练。将VGG16的全连接层fc6和fc7转换成33 卷积层conv6和1*1 卷积层conv7,同时将池化层pool5由原来的变成(猜想是不想reduce特征图大小),为了配合这种变化,采用了一种膨胀卷积神经网络,其实就是conv6采用扩展卷积或带孔卷积(Dilation Conv),其在不增加参数与模型复杂度的条件下指数级扩大卷积的视野,其使用扩张率(dilation rate)参数,来表示扩张的大小,如下图6所示,(a)是普通的3 3卷积,其视野就是3 3 ,(b)是扩张率为1,此时视野变成77 ,©扩张率为3时,视野扩大为1515 ,但是视野的特征更稀疏了。Conv6采用3 *3大小但dilation rate=6的扩展卷积。然后移除dropout层和fc8层,并新增一系列卷积层,在检测数据集上做finetuing。