一、主干网络(用以提取特征图)
将研究数据集送入Backbone,进行特征图提取。经过不同的stride,得到不同尺寸大小的特征图。如图:输入图片尺寸为800x1024,C1得到的尺寸为400x512,C2为200x256,C3-C5尺寸如上图所示。
将得到的C3-C5,经过1x1卷积横向链接,双线性插值自顶向下,相邻特征图进行融合,得到包含更多语义信息的特征图。对其进行3x3卷积操作,减少特征混叠现象,减弱其误检问题。针对P6-P7生成,由P5进行stride为2的最大池化得到P6,由P6进行3x3卷积,ReLU得到P7。送入后续检测头进行检测,提高检测精度。
二、锚点生成、正负样本判定、检测头学习
根据得到的特征图,针对特征图上的每个像素点(x,y),若该点落入GT框中,则认为其为正样本,否则为负样本。若判定其为正样本,根据公式1,由该点位置与真实框的左上、右下位置进行计算,得到该位置点到左、右、上、下四个边界的距离。其中x0,y0表示GT左上点位置,x1,y1表示GT右下点位置,
针对目标存在遮挡现象,导致两个甚至多个GT会存在重叠。若点(x,y)落在多个GT框,则认为其为模糊样本。根据公式(1)、GT框参数,计算得到对应距离参数,选定根据距离参数得到的最小面积作为该点的回归参数。
为了将所得到的框准确分配到不同的特征图上,采用一个限制条件进行判定,如下:
若根据公式(1)得到的l*,t*,r*,b*的最大值小于mi-1或大于mi,就认为该框不属于该层特征图。论文中给出设定值,m2-m7分别为0,64,128,256,512,无穷。
经过上述公式限制,能够将所得到的正样本对应到不同层特征图上,但是,仍存在许多低质量的检测框,这是由于距离GT中心点较远的(x,y),但是点仍位于GT框内所产生的。
采用公式(3)判定低质量检测框。利用交叉熵损失函数对其进行训练学习,结合分类与回归损失,经过多次迭代训练,最终得到最优的检测框及类别精度。