简介
图1:论文原文
论文是发表在上的一篇关于目标检测文章。我们知道,在训练目标检测模型过程中,为了增强模型的鲁棒性、减弱正负样本的不平衡性,通常会对所有样本按一定比例(目标检测中通常设定为)采样正负样本。而采样样本的质量直接决定了训练模型的性能,甚至影响训练过程的收敛。根据前人工作,作者提出一种自适应采样方法,。同时,实验证明了在-和-方法上,使用较以前采样方法均有提升。最终在数据集上达到。 论文原文 源码
0. Abstract
作者指出,影响无框检测方法和有框检测方法性能的因素是正负样本的采样方式。基于此,论文提出一种基于目标的统计特征的自适应采样方法,。它同时提高了无框检测方法和有框检测方法的性能。此外,在论文中作者还讨论了在特征图上的每个位置铺设多个先验框的非必要性。
论文贡献:(一)指出影响有框检测方法和无框检测方法性能的主要因素是样本采样方式;(二)提出一种自适应样本的采样方法;(三)证明在目标检测中,特征图的同一位置设置多个先验框是非必要的;(四)基于的模型达到。
1. Introduction
作者首先指出,由于两阶段算法相比于一阶段算法具有更多先验框的调整过程(即改变了训练过程中正负样本的比例),前者对应模型的精度往往高于后者,但后者对应的模型速度通常优于前者。与此同时,近期出现的无框检测方法不用预设先验框,从而避免了相关超参数的设置。
这里,作者拿和为例,对比上述两种方法的差异:二者的先验框数目;正负样本的定义方式;回归方式。论文严格使用控制变量法寻找有框检测方法和无框检测方法性能差异的原因。最终实验证明,训练过程中正负样本的采样方法是主要因素。针对此问题,论文提出一种基于自适应采样方法,它根据数据特征自动采样正负样本。由于后面实验大量使用这两个网络做对比,在进行下面部分前,我们就前面提到的三个方面大体介绍一下和。
图2:RetinaNet
如上图,由三部分组成:提取特征部分的,网络颈使用,检测头使用一个分类分支和回归分支。对于先验框的设置和样本的采样,参考的是:针对输出大小为的特征图,每个位置产生个先验框。考虑到中有三种不同尺度的输出,这里使用三种框的比例为、大小为,即每个位置共产生九种相对大小的先验框。在样本采样方面根据先验框同标注框的而定,如果,则视该先验框为正样本;如果,则视其为负样本;其余先验框为忽略样本,在训练过程中不使用。的回归方式参考-,以先验框与标注框的相对偏移为回归目标。
图3:FCOS
综合以上对和的简要介绍,下面就三个方面对二者进行比较:
- 先验框数目。使用方式定义先验框,对于大小为的特征图,共产生个先验框,论文中,共三种尺度输出。所以,最终产生的先验框数目为。是无框检测方法,所以我们这里将先验框称之为样本,根据其定义样本的方式,共产生的样本数目为。对比二者,产生的先验框数目要多于。
- 正负样本定义方式。的正负样本是根据先验框同标注框的确定的,如果大于设定的正样本阈值,则视为正样本;如果小于负样本阈值,则视为负样本;其余视为忽略样本,不参与训练。而是通过将特征图上的位置映射回原图的位置而确定的,如果其在某个标注框内,则视其为正样本;否则为负样本。对比二者,产生正样本数量要多于,且所有样本在训练过程中均有使用。
- 回归方式。类似于,以先验框同标注的偏移作为回归目标。而使用映射到原图的位置距离标注框边界的距离作为回归方式,同时,如果该位置处于多个边界框内,则基于较小的那个标注框确定回归目标。对比二者,先验框同标注框的匹配是二者在回归过程中的关键步骤。
如下图是二者采样方式的对比:
图4:RetinaNet和FCOS采样方式的比较
图中表示正样本、表示负样本、表示中的候选正样本。在中根据判定样本性质,在中根据映射在原图中的位置确定候选的正样本,然后通过该层所设定的回归范围最后确定样本的性质。如下图是二者回归方式的对比:
图5:RetinaNet和FCOS回归方式的比较
图中蓝色边界框和点是标注信息,红色边界框和点是先验信息。在中以先验框同标注的偏移作为回归目标,在中根据映射在原图中的位置与标注框各边界的距离为回归目标。
2. Related Work
作者在相关工作部分总结了目标检测方法的两个大类:
- 有框检测方法。其中又分为两阶段算法和一阶段算法。两阶段算法包括:系列、等;一阶段算法包括:等。
- 无框检测方法。其中又分为基于关键点的检测算法和基于中心的检测算法。基于关键点的方法包括、、等;基于中心的方法包括、、等。
3. Difference Analysis of Anchor-Based and Anchor-Free Detection
为了寻找有框检测方法和无框检测方法的实质性差异,作者拿和为例,通过设置大量实验对比,最终得出结论:二者的差异主要来源于分类网络和回归网络。对于分类网络和回归网络,正如前面所提到的相关内容,作者得出如下实验结果:
图6:RetinaNet和FCOS的不同采样方式的实验结果对比
上图中表示、表示、是原本的采样方式,是原本的采样方式,数字代表在数据集上的值。
由以上实验结果可以得出:样本的采样方式是导致有框检测和无框检测方法之间差异的主要因素。就此问题,作者提出一种自适应的样本采样方法,。
4. Adaptive Training Sample Selection
4.1 Description
传统的样本采样方法基于超参数的设置,如有框检测方法中的阈值、无框检测方法中的尺寸范围等(对应于上述的和)。论文提出的不设计超参数的设置,其算法流程如下:
图7:ATSS
算法解释为:输入包括表示输入图像上的标注框、表示特征层数目、表示来自第特征层的先验框、表示所有先验框、为超参数,输出包括表示正样本、表示负样本。第一行循环用于遍历标注框;第二行定义一个集合用于存放候选正样本;第三行循环用于遍历特征层;第四行基于距离从中选择个与标注框的中心足够接近的先验框;第五行将上一步选择的先验框并入候选正样本集合中;第六行结束第三行的循环;第七行计算中的样本同标注框的值为;第八行计算上一步结果的平均值;第九行计算的标准差;第十行将均值与标准差的和作为候选进一步筛选正样本的阈值;第十一行循环遍历上面得到的候选正样本集合;第十二行和第十三行如果候选正样本与标注框的大于阈值且其中心位于标注框内,则将该候选样本确定为正样本,并存入中;第十四行、第十五行和第十六行结束;第十七行定义负样本集合为所有样本减去正样本集合;第十八行结束程序。
对于以上算法需要注意几点:确定正负样本的过程可以看作是将和结合。首先在筛选候选正样本时采用了中心点距离相近的原则,在最后确定正样本时参考了中基于候选框和标注框的方案;在确定阈值时,考虑候选正样本的均值可以反应其整体质量,候选正样本的标准差可以反应当前特征层的选择是否合适。如下图是作者实验所得:
图8:IoU阈值的选取
如横坐标表示特征层,纵坐标表示阈值。由两图对比可知,首先均值用于调整候选正样本的集合。其次,标准差过高,则表示先验框集合与标注框的值波动较大,即很多高质量的先验框集中在这一层,通过将二者求和增大阈值可以过滤适合于其他层的先验框;标准差过低,则表示先验框集合与标注框的值波动较小,即多个特征层的先验框均适合该标注框,通过将二者求和增大阈值可以筛选出更适合该标注框的特征层。总之,提供了一种为标注框选择最合适先验框的方案。
最后,根据统计结果表明每个目标标注框大概有个正样本,且该数据与先验框的比例、尺寸和位置无关。与之对比的是,和会采样更多的正样本,的采样结果更加平衡。算法中使用的超参数值最最终实验结果影响甚微,论文中也有相应的实验佐证。
4.2 Verification
为了证明的有效性,作者将其与和结合,实验结果如下:
图9:ATSS+RetinaNet/FCOS实验结果对比
其中#表示在中特征图上的每个位置仅铺设一个先验框,设置的目的是为了和的对比实验更加严格(中将每个位置作为一个样本,相当于每个位置预设一个先验框)。最后,为了证明论文贡献中的第三点,作者使用以下实验证明。
图10:同一位置使用不同数量的先验框
#表示先验框的尺寸、#表示先验框的比例,表示、等一系列提高模型精度的方法。由实验结果可知,先验框的数量对最终的结果影响较小,而更重要的是对正负样本的采样的方法。
4.3 Comparison
最后给出基于的模型同其他目标检测方法的对比:
图11:基于ATSS模型同其他方法对比
5. Conclusion
论文首先指出有框检测算法和无框检测算法性能差异的主要因素是正负样本的采样方法。并以和为例,分别分析其采样方法,最后综合二者思路提出基于统计特征的自适应采样方法。
根据论文的实验结果对比,是一种有效的样本采样方法。在有框检测方法,如类方法中,可以直接替换原始的采样方法;在无框检测方法,如类方法中,可以由两种思路:第一,在中由候选正样本到正样本的过程中,由每层设定先验框尺寸范围后仅保留一个与标注框匹配的先验框,可以使用中个的思想以保留更多的选择性;第二,将特征图上的点改为边界框,同时基于采样样本,且保留中原始的回归方式。
参考
- Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.
- Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional one-stage object detection[C]// Proceedings of the IEEE International Conference on Computer Vision. 2019: 9627-9636.
- Zhang S, Chi C, Yao Y, et al. Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection[J]. arXiv preprint arXiv:1912.02424, 2019.
完