简介

目标检测英文期刊_自适应



图1:论文原文

论文是发表在目标检测英文期刊_深度学习_02上的一篇关于目标检测文章。我们知道,在训练目标检测模型过程中,为了增强模型的鲁棒性、减弱正负样本的不平衡性,通常会对所有样本按一定比例(目标检测中通常设定为目标检测英文期刊_目标检测_03)采样正负样本。而采样样本的质量直接决定了训练模型的性能,甚至影响训练过程的收敛。根据前人工作,作者提出一种自适应采样方法,目标检测英文期刊_自适应_04。同时,实验证明了在目标检测英文期刊_自适应_05-目标检测英文期刊_自适应_06目标检测英文期刊_自适应_05-目标检测英文期刊_目标检测_08方法上,使用目标检测英文期刊_自适应_04较以前采样方法均有提升。最终在目标检测英文期刊_目标检测英文期刊_10数据集上达到目标检测英文期刊_深度学习_11论文原文 源码


0. Abstract

作者指出,影响无框检测方法和有框检测方法性能的因素是正负样本的采样方式。基于此,论文提出一种基于目标的统计特征的自适应采样方法,目标检测英文期刊_自适应_04。它同时提高了无框检测方法和有框检测方法的性能。此外,在论文中作者还讨论了在特征图上的每个位置铺设多个先验框的非必要性。

论文贡献:(一)指出影响有框检测方法和无框检测方法性能的主要因素是样本采样方式;(二)提出一种自适应样本的采样方法;(三)证明在目标检测中,特征图的同一位置设置多个先验框是非必要的;(四)基于目标检测英文期刊_自适应_04的模型达到目标检测英文期刊_深度学习_11


1. Introduction

作者首先指出,由于两阶段算法相比于一阶段算法具有更多先验框的调整过程(即改变了训练过程中正负样本的比例),前者对应模型的精度往往高于后者,但后者对应的模型速度通常优于前者。与此同时,近期出现的无框检测方法不用预设先验框,从而避免了相关超参数的设置。

这里,作者拿目标检测英文期刊_目标检测_15目标检测英文期刊_深度学习_16为例,对比上述两种方法的差异:目标检测英文期刊_目标检测_17二者的先验框数目;目标检测英文期刊_目标检测英文期刊_18正负样本的定义方式;目标检测英文期刊_自适应_19回归方式。论文严格使用控制变量法寻找有框检测方法和无框检测方法性能差异的原因。最终实验证明,训练过程中正负样本的采样方法是主要因素。针对此问题,论文提出一种基于自适应采样方法,它根据数据特征自动采样正负样本。由于后面实验大量使用这两个网络做对比,在进行下面部分前,我们就前面提到的三个方面大体介绍一下目标检测英文期刊_目标检测_15目标检测英文期刊_深度学习_16

目标检测英文期刊_目标检测_22



图2:RetinaNet

如上图,目标检测英文期刊_目标检测_15三部分组成:提取特征部分的目标检测英文期刊_目标检测英文期刊_24,网络颈使用目标检测英文期刊_计算机视觉_25,检测头使用一个分类分支和回归分支。对于先验框的设置和样本的采样,目标检测英文期刊_目标检测_15参考的是目标检测英文期刊_自适应_27:针对输出大小为目标检测英文期刊_深度学习_28的特征图,每个位置产生目标检测英文期刊_计算机视觉_29个先验框。考虑到目标检测英文期刊_目标检测_15中有三种不同尺度的输出,这里使用三种框的比例为目标检测英文期刊_目标检测_31、大小为目标检测英文期刊_深度学习_32,即每个位置共产生九种相对大小的先验框。在样本采样方面根据先验框同标注框的目标检测英文期刊_自适应_33而定,如果目标检测英文期刊_计算机视觉_34,则视该先验框为正样本;如果目标检测英文期刊_自适应_35,则视其为负样本;其余先验框为忽略样本,在训练过程中不使用。目标检测英文期刊_目标检测_15的回归方式参考目标检测英文期刊_自适应_37-目标检测英文期刊_目标检测英文期刊_38,以先验框与标注框的相对偏移为回归目标。

目标检测英文期刊_深度学习_39



图3:FCOS

综合以上对目标检测英文期刊_目标检测_15目标检测英文期刊_深度学习_16的简要介绍,下面就三个方面对二者进行比较:

  1. 先验框数目目标检测英文期刊_目标检测_42使用目标检测英文期刊_目标检测英文期刊_43方式定义先验框,对于大小为目标检测英文期刊_目标检测英文期刊_44的特征图,共产生目标检测英文期刊_深度学习_45个先验框,论文中目标检测英文期刊_目标检测英文期刊_46,共三种尺度输出。所以,最终产生的先验框数目为目标检测英文期刊_目标检测_47目标检测英文期刊_目标检测英文期刊_48是无框检测方法,所以我们这里将先验框称之为样本,根据其定义样本的方式,共产生的样本数目为目标检测英文期刊_自适应_49。对比二者,目标检测英文期刊_目标检测_42产生的先验框数目要多于目标检测英文期刊_目标检测英文期刊_48
  2. 正负样本定义方式目标检测英文期刊_目标检测_42的正负样本是根据先验框同标注框的目标检测英文期刊_目标检测英文期刊_53确定的,如果大于设定的正样本阈值,则视为正样本;如果小于负样本阈值,则视为负样本;其余视为忽略样本,不参与训练。而目标检测英文期刊_目标检测英文期刊_48是通过将特征图上的位置映射回原图的位置而确定的,如果其在某个标注框内,则视其为正样本;否则为负样本。对比二者,目标检测英文期刊_目标检测英文期刊_48产生正样本数量要多于目标检测英文期刊_目标检测_42,且所有样本在训练过程中均有使用。
  3. 回归方式。类似于目标检测英文期刊_目标检测_57目标检测英文期刊_目标检测_42以先验框同标注的偏移作为回归目标。而目标检测英文期刊_目标检测英文期刊_48使用映射到原图的位置距离标注框边界的距离作为回归方式,同时,如果该位置处于多个边界框内,则基于较小的那个标注框确定回归目标。对比二者,先验框同标注框的匹配是二者在回归过程中的关键步骤。

如下图是二者采样方式的对比:

目标检测英文期刊_目标检测_60



图4:RetinaNet和FCOS采样方式的比较

图中目标检测英文期刊_深度学习_61表示正样本、目标检测英文期刊_深度学习_62表示负样本、目标检测英文期刊_自适应_63表示目标检测英文期刊_深度学习_16中的候选正样本。在目标检测英文期刊_目标检测_15中根据目标检测英文期刊_自适应_33判定样本性质,在目标检测英文期刊_深度学习_16中根据映射在原图中的位置确定候选的正样本,然后通过该层所设定的回归范围最后确定样本的性质。如下图是二者回归方式的对比:

目标检测英文期刊_目标检测_68



图5:RetinaNet和FCOS回归方式的比较

图中蓝色边界框和点是标注信息,红色边界框和点是先验信息。在目标检测英文期刊_目标检测_15中以先验框同标注的偏移作为回归目标,在目标检测英文期刊_深度学习_16中根据映射在原图中的位置与标注框各边界的距离为回归目标。


2. Related Work

作者在相关工作部分总结了目标检测方法的两个大类:

  1. 有框检测方法。其中又分为两阶段算法和一阶段算法。两阶段算法包括:目标检测英文期刊_目标检测英文期刊_71系列、目标检测英文期刊_目标检测_72等;一阶段算法包括:目标检测英文期刊_自适应_73等。
  2. 无框检测方法。其中又分为基于关键点的检测算法和基于中心的检测算法。基于关键点的方法包括目标检测英文期刊_计算机视觉_74目标检测英文期刊_目标检测英文期刊_75目标检测英文期刊_目标检测英文期刊_76等;基于中心的方法包括目标检测英文期刊_计算机视觉_77目标检测英文期刊_计算机视觉_78目标检测英文期刊_目标检测英文期刊_48等。

3. Difference Analysis of Anchor-Based and Anchor-Free Detection

为了寻找有框检测方法和无框检测方法的实质性差异,作者拿目标检测英文期刊_目标检测_15目标检测英文期刊_深度学习_16为例,通过设置大量实验对比,最终得出结论:二者的差异主要来源于分类网络和回归网络。对于分类网络和回归网络,正如前面所提到的相关内容,作者得出如下实验结果:

目标检测英文期刊_目标检测英文期刊_82



图6:RetinaNet和FCOS的不同采样方式的实验结果对比

上图中目标检测英文期刊_目标检测英文期刊_83表示目标检测英文期刊_目标检测_15目标检测英文期刊_目标检测_85表示目标检测英文期刊_深度学习_16目标检测英文期刊_自适应_87目标检测英文期刊_目标检测_15原本的采样方式,目标检测英文期刊_自适应_89目标检测英文期刊_深度学习_16原本的采样方式,数字代表在目标检测英文期刊_目标检测英文期刊_10数据集上的目标检测英文期刊_自适应_92值。

由以上实验结果可以得出:样本的采样方式是导致有框检测和无框检测方法之间差异的主要因素。就此问题,作者提出一种自适应的样本采样方法,目标检测英文期刊_自适应_04


4. Adaptive Training Sample Selection

4.1 Description

传统的样本采样方法基于超参数的设置,如有框检测方法中的目标检测英文期刊_自适应_33阈值、无框检测方法中的尺寸范围等(对应于上述的目标检测英文期刊_目标检测_15目标检测英文期刊_深度学习_16)。论文提出的目标检测英文期刊_自适应_04不设计超参数的设置,其算法流程如下:

目标检测英文期刊_目标检测_98



图7:ATSS

算法解释为:输入包括目标检测英文期刊_目标检测_99表示输入图像上的标注框、目标检测英文期刊_深度学习_100表示特征层数目、目标检测英文期刊_计算机视觉_101表示来自第目标检测英文期刊_计算机视觉_102特征层的先验框、目标检测英文期刊_计算机视觉_103表示所有先验框、目标检测英文期刊_计算机视觉_104为超参数,输出包括目标检测英文期刊_自适应_105表示正样本、目标检测英文期刊_深度学习_106表示负样本。第一行循环用于遍历标注框;第二行定义一个集合目标检测英文期刊_目标检测英文期刊_107用于存放候选正样本;第三行循环用于遍历特征层;第四行基于目标检测英文期刊_目标检测英文期刊_108距离从目标检测英文期刊_计算机视觉_101中选择目标检测英文期刊_计算机视觉_110个与标注框的中心足够接近的先验框;第五行将上一步选择的先验框并入候选正样本集合目标检测英文期刊_目标检测英文期刊_107中;第六行结束第三行的循环;第七行计算目标检测英文期刊_目标检测英文期刊_107中的样本同标注框的目标检测英文期刊_自适应_33值为目标检测英文期刊_目标检测英文期刊_114第八行计算上一步结果目标检测英文期刊_目标检测英文期刊_114的平均值目标检测英文期刊_深度学习_116第九行计算目标检测英文期刊_目标检测英文期刊_114的标准差目标检测英文期刊_目标检测_118第十行将均值目标检测英文期刊_深度学习_116与标准差目标检测英文期刊_目标检测_118的和作为候选进一步筛选正样本的目标检测英文期刊_自适应_33阈值目标检测英文期刊_目标检测英文期刊_122第十一行循环遍历上面得到的候选正样本集合目标检测英文期刊_目标检测英文期刊_107第十二行第十三行如果候选正样本与标注框的目标检测英文期刊_自适应_33大于阈值目标检测英文期刊_目标检测英文期刊_122且其中心位于标注框内,则将该候选样本确定为正样本,并存入目标检测英文期刊_自适应_105中;第十四行第十五行第十六行结束;第十七行定义负样本集合目标检测英文期刊_深度学习_106为所有样本目标检测英文期刊_计算机视觉_103减去正样本集合目标检测英文期刊_自适应_105第十八行结束程序。

对于以上算法需要注意几点目标检测英文期刊_自适应_04确定正负样本的过程可以看作是将目标检测英文期刊_目标检测_15目标检测英文期刊_深度学习_16结合。首先在筛选候选正样本时采用了目标检测英文期刊_深度学习_16中心点距离相近的原则,在最后确定正样本时参考了目标检测英文期刊_目标检测_15中基于候选框和标注框目标检测英文期刊_自适应_33的方案;在确定目标检测英文期刊_自适应_33阈值时,考虑候选正样本目标检测英文期刊_自适应_33的均值可以反应其整体质量,候选正样本目标检测英文期刊_自适应_33的标准差可以反应当前特征层的选择是否合适。如下图是作者实验所得:

目标检测英文期刊_目标检测_139



图8:IoU阈值的选取

如横坐标表示特征层,纵坐标表示目标检测英文期刊_自适应_33阈值。由两图对比可知,首先均值目标检测英文期刊_深度学习_116用于调整候选正样本的集合。其次,标准差目标检测英文期刊_目标检测_118过高,则表示先验框集合与标注框的目标检测英文期刊_自适应_33值波动较大,即很多高质量的先验框集中在这一层,通过将二者求和增大目标检测英文期刊_自适应_33阈值可以过滤适合于其他层的先验框;标准差过低,则表示先验框集合与标注框的目标检测英文期刊_自适应_33值波动较小,即多个特征层的先验框均适合该标注框,通过将二者求和增大目标检测英文期刊_自适应_33阈值可以筛选出更适合该标注框的特征层。总之,目标检测英文期刊_自适应_04提供了一种为标注框选择最合适先验框的方案。

最后,根据统计结果表明每个目标标注框大概有目标检测英文期刊_深度学习_148个正样本,且该数据与先验框的比例、尺寸和位置无关。与之对比的是,目标检测英文期刊_目标检测_15目标检测英文期刊_深度学习_16会采样更多的正样本,目标检测英文期刊_自适应_04的采样结果更加平衡。算法中使用的超参数目标检测英文期刊_计算机视觉_110值最最终实验结果影响甚微,论文中也有相应的实验佐证。

4.2 Verification

为了证明目标检测英文期刊_自适应_04的有效性,作者将其与目标检测英文期刊_目标检测_15目标检测英文期刊_深度学习_16结合,实验结果如下:

目标检测英文期刊_目标检测_156



图9:ATSS+RetinaNet/FCOS实验结果对比

其中#目标检测英文期刊_目标检测_157表示在目标检测英文期刊_目标检测_15中特征图上的每个位置仅铺设一个先验框,设置的目的是为了和目标检测英文期刊_深度学习_16的对比实验更加严格(目标检测英文期刊_深度学习_16中将每个位置作为一个样本,相当于每个位置预设一个先验框)。最后,为了证明论文贡献中的第三点,作者使用以下实验证明。

目标检测英文期刊_目标检测英文期刊_161



图10:同一位置使用不同数量的先验框

#目标检测英文期刊_目标检测_162表示先验框的尺寸、#目标检测英文期刊_目标检测_162表示先验框的比例,目标检测英文期刊_计算机视觉_164表示目标检测英文期刊_目标检测英文期刊_165目标检测英文期刊_深度学习_166等一系列提高模型精度的方法。由实验结果可知,先验框的数量对最终的结果影响较小,而更重要的是对正负样本的采样的方法。

4.3 Comparison

最后给出基于目标检测英文期刊_自适应_04的模型同其他目标检测方法的对比:

目标检测英文期刊_计算机视觉_168



图11:基于ATSS模型同其他方法对比


5. Conclusion

论文首先指出有框检测算法和无框检测算法性能差异的主要因素是正负样本的采样方法。并以目标检测英文期刊_深度学习_169目标检测英文期刊_目标检测_170目标检测英文期刊_深度学习_16为例,分别分析其采样方法,最后综合二者思路提出基于统计特征的自适应采样方法。

根据论文的实验结果对比,目标检测英文期刊_自适应_04是一种有效的样本采样方法。在有框检测方法,如目标检测英文期刊_目标检测_15类方法中,目标检测英文期刊_自适应_04可以直接替换原始的采样方法;在无框检测方法,如目标检测英文期刊_深度学习_16类方法中,可以由两种思路:第一,在目标检测英文期刊_深度学习_16中由候选正样本到正样本的过程中,由每层设定先验框尺寸范围后仅保留一个与标注框匹配的先验框,可以使用目标检测英文期刊_自适应_04目标检测英文期刊_计算机视觉_29个的思想以保留更多的选择性;第二,将特征图上的点改为边界框,同时基于目标检测英文期刊_自适应_04采样样本,且保留目标检测英文期刊_深度学习_16中原始的回归方式。


参考

  1. Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.
  2. Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional one-stage object detection[C]// Proceedings of the IEEE International Conference on Computer Vision. 2019: 9627-9636.
  3. Zhang S, Chi C, Yao Y, et al. Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection[J]. arXiv preprint arXiv:1912.02424, 2019.