Borui Jiang∗1,3, Ruixuan Luo∗1,3, Jiayuan Mao∗2,4,
Tete Xiao1,3, and Yuning Jiang4
1School of Electronics Engineering and Computer Science, Peking University
2ITCS, Institute for Interdisciplinary Information Sciences, Tsinghua University
3Megvii Inc. (Face++)
4Toutiao AI Lab
{jbr, luoruixuan97, jasonhsiao97}@pku.edu.cn,
mjy14@mails.tsinghua.edu.cn, jiangyuning@bytedance.com
Abstract.基于现代美国有线电视新闻网的目标检测器依赖于包围盒回归和非最大抑制来定位对象。虽然类标签的概率自然地反映了分类的可信度,但缺乏定位的可信度。这使得适当的局部边界盒在迭代回归过程中退化,甚至在NMS过程中被抑制。本文提出了利用IoU网络学习来预测每个检测到的边界盒与匹配地面真实性之间的IoU。该网络获得了这种定位置信度,通过保留精确定位的包围盒,改进了NMS算法。在此基础上,提出了一种基于优化的边界盒优化方法,以预测的IoU为目标。在MS-COCO数据集上进行的大量实验证明了IoU网络的有效性,以及它与多种最新目标检测器的兼容性和适应性。关键词:目标定位,包围盒回归,非最大抑制
1 Introduction
目标检测是一系列下游视觉应用的先决条件,例如实例分割[19,20]、人体骨架[27]、人脸识别[26]和高级基于对象的推理[30]。目标检测结合了目标分类和目标定位。现代的目标检测器大多基于两阶段框架[9,8,22,16,10],其中目标检测被描述为一个多任务学习问题:1)区分前景目标和背景,并给它们分配适当的类标签;2)通过最大化相交(IOU)或检测结果与地面实况之间的其它度量来回归一组使对象本地化的系数。最后,通过非最大抑制(NMS)过程去除冗余边界盒(在同一对象上的重复检测)。
(a)分类置信度和定位精度不一致的示范案例。黄色边界框表示地面真实,红色和绿色边界框都是FPN[16]的检测结果。定位置信度由提出的IoU网络计算。使用分类置信度作为排序度量将导致在传统的NMS过程中错误地消除精确定位的边界框(绿色)。定量分析见第2.1节
图1:缺乏定位置信度带来的两个缺点的可视化。示例选自MS-COCO minival[17]。
在这种检测管道中,分类和定位的解决方法是不同的。具体地说,给定一个方案,当每个类标签的概率自然地充当该方案的“分类置信度”时,包围盒回归模块找到该方案的最佳变换,以最适合基本事实。然而,“本地化信心”在这个循环中是缺失的。这带来了两个缺点。(1)首先,对重复检测的抑制忽略了定位精度,而分类分数通常被用作对方案进行排序的度量。在图1(a)中,我们展示了一组情况,其中检测到的具有更高分类可信度的边界框与相应的地面真值具有较小的重叠。类似于格雷沙姆所说的“劣币驱逐良币”的说法,分类可信度和定位精度之间的偏差可能导致精确定位的包围盒被不太精确的包围盒所抑制过程。(2)第二,局部化置信度的缺失使得广义包围盒回归难以解释。以文献[3]为例,研究了迭代包围盒回归的非单调性。也就是说,如果应用多次,边界框回归可能会退化输入边界框的本地化(如图1(b)所示)。本文介绍了IoU网络,它可以预测检测到的边界盒及其对应的地面真值盒之间的IoU,使网络感知到与分类模块相似的定位准则。这个简单系数为我们提供了解决上述问题的新方法:
一。IoU是定位精度的自然标准。我们可以用预测的IoU作为NMS中的排名关键字来代替分类置信度。这种技术,即IoU引导的NMS,有助于消除由误导性分类可信度引起的抑制失败。2。我们提出了一个基于优化的边界盒求精过程,与传统的基于回归的方法相同。在推理过程中,将预测的IoU作为优化目标,并作为定位置信度的可解释指标。提出的精确的RoI池层使我们能够通过梯度上升来解决IoU优化问题。结果表明,与基于回归的方法相比,基于优化的包围盒求精方法对定位精度的提高是单调的。该方法完全兼容并可集成到各种基于CNN的检测器中[16,3,10]。
2深入研究对象定位
首先,我们探讨了目标定位中的两个缺点:分类置信度与定位精度的偏差和非单调包围盒回归。标准FPN[16]探测器以MS-COCO trainval35k为基线进行训练,并在minival上进行测试。
2.1分类和定位精度偏差
为了消除重复的边界盒,自[4]以来,NMS一直是大多数目标检测器中不可或缺的组成部分。NMS以迭代的方式工作。在每次迭代中,选择具有最大分类置信度的边界框,并使用预定义的重叠阈值消除其相邻框。在软NMS[2]算法中,盒子消除被置信度的降低所代替,从而导致较高的召回率。近年来,人们提出了一套基于学习的算法来代替无参数的网络管理系统和软网络管理系统。[24]计算所有边界框的重叠矩阵,并执行关联传播聚类以选择簇的样本作为最终检测结果。[11]提出了GossipNet,一种基于包围盒和分类置信度的NMS后处理网络。[12]提出了一种端到端网络学习检测到的边界框之间的关系。然而,这些基于参数的方法需要更多的计算资源,这限制了它们的实际应用。
在广泛采用的NMS方法中,分类置信度被用来对边界框进行排序,这可能是一个问题。我们将所有检测到的边界框在NMS之前的分类置信度分布可视化,如图2(a)所示。X轴是检测到的盒子与其匹配的地面真实之间的IOU,而Y轴表示其分类置信度。Pearson相关系数表明,定位精度与分类置信度没有很好的相关性。
我们将此归因于大多数基于CNN的目标检测器用于区分前景(正)样本和背景(负)样本。如果检测到的边界框在训练过程中被认为是正的,如果它的IoU与地面真值边界框之一大于阈值Ω列。这个目标可能与定位精度不一致。图1(a)显示了具有较高分类置信度的边界框具有较差本地化的情况。
回想一下,在传统的NMS中,当存在对单个对象的重复检测时,将保持具有最大分类置信度的边界框。然而,由于定位误差的存在,在NMS中可能会抑制定位效果较好的包围盒,导致目标定位效果较差。图3定量地显示了NMS后正边界框的数量。边界框按其IoU和匹配的地面真相分组。对于多个匹配相同的检测真实框
事实上,只有IoU最高的才被认为是积极的。因此,没有NMS可以被认为是正边界框数量的上限。可以看出,传统的NMS方法由于缺乏定位置信度,使得IoU>0.9的检测包围盒被抑制了一半以上,从而降低了检测结果的定位质量。
图3:NMS之后的正边界框的数量,按其IoU与匹配的地面真值分组。在传统的NMS(blue bar)中,由于分类置信度和定位精度的偏差,很大一部分精确定位的包围盒被错误地抑制,而IoU引导的NMS(yellow bar)则保留了更精确的定位包围盒。
2.2非单调包围盒回归
一般来说,单目标定位可以分为两类:基于包围盒的方法和基于分段的方法。基于分段的方法[19,20,13,10]旨在为每个实例生成像素级分段,但不可避免地需要额外的分段注释。这项工作的重点是基于边界框的方法。单目标定位通常被定义为一个包围盒回归任务。其核心思想是网络直接学习将边界框转换(即缩放或移动)到其指定目标。在[9,8]中,应用线性回归或完全连接层来细化由外部预处理模块(例如,选择性搜索[28]或边缘框[33])生成的对象建议的本地化。更快的R-CNN[23]提出了区域建议网络(RPN),其中仅使用预定义的锚来训练端到端的对象检测器。[14,32]利用无锚、完全卷积的网络来处理对象尺度的变化。同时,在文献[29]中提出了斥力损失的概念,用以检测具有人群遮挡的物体。由于边界盒回归的有效性和简单性,它已成为大多数基于CNN的检测器的重要组成部分。广泛的下游应用,如跟踪和识别,将受益于精确定位边界框。这就对提高定位精度提出了要求。在一系列的目标检测器[31,7,6,21]中,细化后的盒将再次输入到边界盒回归器中,并再次进行细化。此过程执行了多次,即迭代包围盒回归。更快的R-CNN[23]首先执行边界框回归两次,以将预定义的锚转换为最终检测到的边界框。[15]提出了一种迭代的组递归学习方法考虑到多个方案之间的全局相关性,优化检测结果并最小化目标方案与地面真实值之间的偏移量。G-CNN是在[18]中提出的,它从图像上的多尺度规则网格开始,迭代地将网格中的框推向地面真相。然而,如文献[3]所述,应用两次以上的包围盒回归并没有带来进一步的改进。[3]将此归因于多步包围盒回归中的分布不匹配,并通过多步包围盒回归中的重采样策略加以解决。
实验证明了基于FPN和级联R-CNN框架的迭代包围盒回归算法的性能。每次迭代后结果的平均精度(AP)分别如图4(a)和图4(b)中的蓝色曲线所示。图4中的AP曲线表明,对于迭代包围盒回归,随着迭代次数的增加,定位精度的提高是非单调的。非单调性和不可解释性给应用带来了困难。此外,如果没有对检测到的边界框的定位置信度,我们就无法对细化进行细粒度控制,例如对不同的边界框使用自适应的迭代次数。
图4:基于优化的基于v.s.回归的BBox优化。(a)FPN中的比较。当回归迭代应用时,检测结果的AP首先得到改善,但在以后的迭代中下降很快。(b)Cascade R-CNN的露营活动。迭代0、1和2表示级联R-CNN中的第一、二和三个回归阶段。对于迭代i≥3,我们使用第三阶段的回归器来细化边界框。经过多次迭代,AP略有下降,而基于优化的方法使AP进一步提高了0.8%。
3 IoU-Net
为了定量分析IoU预测的有效性,我们在第3.1节中首先介绍了训练IoU预测因子所采用的方法。在第3.2节和第3.3节中,我们展示了如何为NMS和边界框使用IoU预测器分别是精益求精。最后,在第3.4节中,我们将IOU预测器集成到现有的对象检测器中,例如FPN(16)。
图5:第3.4节描述的提议的IoU网的完整架构。输入图像首先输入到FPN主干网中IoU预测器从FPN骨干网获取输出特性。我们将RoI池层替换为第3.3节中描述的PrRoI池层。IoU预测器与R-CNN分支具有相似的结构。虚线框中标记的模块构成一个独立的IoU网。
3.1学习预测IoU
如图5所示,IoU预测器从FPN获取视觉特征,并估计每个边界框的定位精度(IoU)。我们生成用于训练IoU网络的边界框和标签,方法是增加groundtruth,而不是接受RPNs的建议。具体来说,对于训练集中的所有地面真值边界框,我们使用一组随机参数对其进行手动变换,得到一个候选边界框集。然后,我们从该候选者中移除具有IoU小于Ω列=0.5且匹配地面真相的边界框。我们统一地从这个候选集w.r.t.的IoU中抽取训练数据。这个数据生成过程在经验上为IoU网络带来了更好的性能和健壮性。对于每个边界框,特征都是从FPN的输出中提取出来的,并带有建议的精确RoI池层(见第3.3节)。然后将这些特征输入到两层前馈网络中进行IoU预测。为了获得更好的性能,我们使用类感知的IoU预测器。
IOU预测器与大多数现有的基于ROI的检测器兼容。独立IoU预测器的准确性如图2所示。由于训练过程独立于特定的检测器,因此它对输入分布的变化(例如,当与不同的检测器协作时)具有鲁棒性。在后面的章节中,我们将进一步演示如何在一个完整的检测管道中(即,与RPNs和R-CNN联合)联合优化这个模块。
3.2 IoU引导的NMS
我们使用一种新的IoU引导的NMS方法来解决分类置信度和定位精度之间的偏差,该方法将分类置信度和定位置信度(IoU的估计)分开。简而言之,我们使用预测的IoU而不是分类置信度作为边界框的排名关键字。与传统的NMS类似,将选择具有最高IoU和地面真值的盒子,以消除具有大于给定阈值ΩNMS的重叠的所有其他盒子。为了确定分类得分,当一个框i消除框j时,我们用si=max(si,sj)更新分类置信度siof框i。这个过程也可以解释为一个置信聚类:对于一组匹配同一地面真值的包围盒,我们对类标签进行最置信预测。此算法的psuedo代码可以在算法1中找到。IoU引导的NMS解决了分类置信度和定位精度之间的偏差。定量结果表明,我们的方法优于传统的NMS和其他变体,如软NMS[2]。使用IoU引导的NMS作为后处理器进一步推动了几种最新目标探测器的性能。
3.3边界框优化作为优化程序
边界盒求精问题可以用数学方法表示为寻找最佳c*s.t.:
其中boxDet为检测到的边界框,boxGt为(目标)地面真值边界框,transform为以c为参数的边界框变换函数,对给定的边界框进行变换。crit是测量两个边界框之间距离的标准。在最初的快速R-CNN[5]框架中,crit被选为对数尺度上坐标的平滑L1距离,而在[32]中,crit被选为两个边界框之间的-ln(IoU)。
基于回归的算法使用前馈神经网络直接估计最优解c*。然而,迭代包围盒回归方法容易受到输入分布变化的影响[3],并且可能导致非单调局部化改进,如图4所示。为了解决这些问题,我们提出了一种基于优化的包围盒优化方法,利用IoU网络作为鲁棒定位精度(IoU)估计。此外,IoU估计器可以作为一个早期停止条件来实现具有自适应步长的迭代求精。
IoU网直接估计IoU(boxdet,boxgt)。而提出的精确RoI池层可以计算IoU w.r.t.的梯度。
图6:RoI池、RoI对齐和PrRoI池的图示。
箱坐标法,可以直接用梯度上升法求出方程1的最优解。在算法2中,将IOU的估计视为优化目标,我们迭代地用计算的梯度细化包围盒坐标并最大化检测边界框与其匹配的地面真实之间的IOU。此外,预测的IoU是每个包围盒上定位置信度的可解释指标,有助于解释所执行的转换。
在实现中,在算法2第6行中显示,我们手动缩放渐变,并将坐标与该轴上的包围盒的大小(例如(例如,我们按宽度(bj)放大∇x1))。这相当于在对数标度坐标(x/w,y/h,logw,logh)中执行优化,如[5]所示。我们还采用了一步包围盒回归来初始化坐标。
精确的投资回报池。我们引入精确的RoI池(简称PrRoI池),为我们的边界框优化*提供动力。它避免了坐标的任何量化,并且在边界框坐标上具有连续的梯度。给定RoI/PrRoI池之前的特征映射F(例如ResNet-50中的Conv4),让wi、jbe将特征映射到特征映射上的一个离散位置(i、j)。使用双线性插值,离散特征图可以在任何连续坐标(x,y)下被视为连续的:
式中,
是插值系数。然后将RoI的bin表示为
,其中(x1,y1)和(x2,y2)是左上角和右下角的连续坐标
我们通过计算二阶积分来执行给定bin和特征映射F的池(例如,平均池):
为了更好的理解,我们在图6中可视化了RoI池、RoI对齐[10]和我们的PrRoI池:在传统的RoI池中,需要首先对连续坐标进行量化,以计算bin中激活的总和;为了消除量化误差,在RoI对齐中,N=4个连续点在bin中采样,表示为(ai,bi),并在采样点上执行池。与RoI-Align(N是预先定义的,而不是自适应的w.r.t.)不同,本文提出的PrRoI池直接基于连续特征映射计算二阶积分。
此外,根据方程3中的公式,PrPool(Bin,F)是Bin坐标的可微w.r.t。例如,PrPool(B,F)w.r.t.x1的偏导数可以计算为:
PrPool(bin,F)w.r.t.其他坐标的偏导数可以用同样的方法计算。由于我们避免了任何量化,PrPool是连续可微的
3.4联合训练
IoU预测器可以集成到标准的FPN管道中,用于端到端的训练和推理。为了清楚起见,我们将主干线表示为用于图像特征提取的CNN架构,并将头部表示为应用于单个roi的模块。如图5所示,IoU网使用ResNet FPN[16]作为主干,它具有自顶向下的架构来构建一个特性金字塔。FPN根据roi的尺度,从特征金字塔的不同层次提取roi的特征。原始的RoI池层被精确的RoI池层所代替。对于网络头部,IoU预测器与R-CNN分支(包括分类和边界盒回归)基于来自主干的相同视觉特征并行工作。我们从ImageNet上预先训练的ResNet模型初始化权重[25]。所有新层都用标准差为0.01或0.001的零均值高斯初始化。我们使用平滑-L1损失训练IoU预测器。IoU预测器的训练数据按照第3.1节的描述在训练批的图像中单独生成。IoU标签是标准化的s.t.值分布在[-1,1]。
输入图像被调整为沿着短轴具有800 px,沿着长轴最大为1200 px。分类与回归分支取512,RPN中每个图像的ROI
我们用一批16号的来训练。该网络经过160k次迭代优化,学习率为0.01,经过120k次迭代后,学习率降低了10倍。我们还通过将第一个10公里迭代的学习率设置为0.004来预热训练。我们使用1e-4的重量衰减和0.9的动量。在推理过程中,我们首先对初始坐标应用包围盒回归。为了加快推理速度,我们首先在所有检测到的边界框上应用IoU引导的NMS。使用基于优化的算法进一步细化了100个分类置信度最高的包围盒。我们设置λ=0.5为步长,Ω1=0.001为早期停止阈值,Ω2=-0.01为局部退化容限,T=5为迭代次数。
4 实验
我们在80类MS-COCO检测数据集上进行了实验[17]。在[1,16]之后,对模型进行80k个训练图像和35k个验证图像(trainval35k)的联合训练,并对一组5k个验证图像(minival)进行评估。为了验证所提出的方法,在第4.1节和第4.2节中,使用目标检测器分别训练独立的IoU网络(没有R-CNN模块)。将IoU引导的网络管理系统和基于优化的包围盒优化算法应用于检测结果。
4.1 IoU引导的NMS
表1总结了不同NMS方法的性能。当软NMS保留更多的边界框时(没有真正的“抑制”),IoU引导的NMS通过改进检测到的边界框的定位来改善结果。因此,IoU引导的NMS在高IoU指标(如AP90)上的性能明显优于基线。通过分析不同IoU阈值下NMS算法的召回行为,深入研究了不同算法的行为。原始检测到的边界框由ResNet50 FPN生成,不带任何NMS。随着定位精度要求的提高,IoU制导NMS与其它方法的性能差距越来越大。特别是,匹配IoUΩ测试时的召回率=0.9在传统NMS之后下降到18.7%,而IoU NMS达到28.9%,无NMS“上限”为39.7%。
4.2基于优化的包围盒优化
所提出的基于优化的包围盒优化方法与大多数基于CNN的目标检测器[16,3,10]兼容,如表2所示。在独立IoU网络的原始管道之后应用边界盒求精,通过更精确地定位对象,进一步提高了性能。改进后的算法进一步提高了ap90 2.8%和整体AP 0.8%,即使级联R-CNN具有三级包围盒回归器。
表1:IoU引导的NMS与其他NMS方法的比较。通过保留精确定位的包围盒,IoU引导的NMS在高匹配IoU阈值(如AP90)的AP中显示出显著的改进。
图7:不同的NMS方法在不同IoU阈值下的召回曲线,用于将检测到的边界框与地真值匹配。没有提供NMS(没有框被抑制)作为召回的上限。提出的IoU-NMS具有更高的召回率,有效地缩小了高IoU阈值(如0.8)时的差距。
表2:基于优化的包围盒细化进一步提高了几种基于CNN的目标检测器的性能。
4.3 联合训练
IoU网络可以与目标检测框架并行进行端到端优化。我们发现在网络中加入IoU预测器有助于网络学习更多的区分特征,ResNet50 FPN和resnet101fpn的AP分别提高了0.6%和0.4%。IoU引导的NMS和边界盒优化进一步推动了性能的提高。与基线38.5%相比,ResNet101 FPN的AP为40.6%(提高了2.1%)。表3显示了推断速度,表明IoU网在可容忍的计算开销下提高了检测性能。
表3:MS-COCO的最终实验结果。IoU Net表示嵌入IoU预测器的ResNet-FPN。在AP中,我们将FPN基线提高约2%。
表4:单个TITAN X GPU上多个目标探测器的推断速度。这些型号共享同一骨干网ResNet50-FPN。输入分辨率为1200x800。所有超参数都设置为相同。
我们主要将表3中AP50的不良结果归因于IoU估计误差。当边界框的IoU与groundtruth较低时,它们的外观变化较大。如图2(b)所示,对于IoU较低的盒子,IoU估计变得不太准确。这会降低下游细化和抑制的性能。实验结果表明,在训练过程中,采用低IoU的多包围盒抽样等技术,可以部分解决这一问题。
5结论
本文提出了一种新的网络结构,即IoU网,以实现目标的精确定位。通过学习用匹配的地面真值预测IoU,IoU网获得检测到的边界盒的“定位置信度”。这使得IoU引导的NMS程序能够防止精确定位的边界框被抑制。提出的IoU网络具有直观性,可以很容易地集成到一组广泛的检测模型中,以提高其定位精度。在MS-COCO上的实验结果证明了该方法的有效性和应用潜力。指出了现代检测管道分类和定位可信度的偏差。我们还对边界盒求精问题提出了一种新的优化观点,所提出的方法优于基于回归的方法。我们希望这些新颖的观点能为以后的目标检测工作提供一些启示。
References
1. Bell, S., Lawrence Zitnick, C., Bala, K., Girshick, R.: Inside-outside net: Detecting
objects in context with skip pooling and recurrent neural networks. In: Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 2874–
2883 (2016)
2. Bodla, N., Singh, B., Chellappa, R., Davis, L.S.: Improving object detection with
one line of code. arXiv preprint arXiv:1704.04503 (2017)
3. Cai, Z., Vasconcelos, N.: Cascade r-cnn: Delving into high quality object detection.
arXiv preprint arXiv:1712.00726 (2017)
4. Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection. In:
Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer
Society Conference on. vol. 1, pp. 886–893. IEEE (2005)
5. Doll´ ar, P., Appel, R., Belongie, S., Perona, P.: Fast feature pyramids for object
detection. IEEE Transactions on Pattern Analysis and Machine Intelligence 36(8),
1532–1545 (2014)
6. Gidaris, S., Komodakis, N.: Object detection via a multi-region and semantic
segmentation-aware cnn model. In: Proceedings of the IEEE International Confer-
ence on Computer Vision. pp. 1134–1142 (2015)
7. Gidaris, S., Komodakis, N.: Attend refine repeat: Active box proposal generation
via in-out localization. arXiv preprint arXiv:1606.04446 (2016)
8. Girshick, R.: Fast r-cnn. In: The IEEE International Conference on Computer
Vision (ICCV) (December 2015)
9. Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate
object detection and semantic segmentation. In: The IEEE Conference on Computer
Vision and Pattern Recognition (CVPR) (June 2014)
10. He, K., Gkioxari, G., Doll´ ar, P., Girshick, R.: Mask r-cnn. In: The IEEE International
Conference on Computer Vision (ICCV) (2017)
11. Hosang, J., Benenson, R., Schiele, B.: Learning non-maximum suppression. arXiv
preprint (2017)
12. Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y.: Relation networks for object detection.
arXiv preprint arXiv:1711.11575 (2017)
13. Hu, H., Lan, S., Jiang, Y., Cao, Z., Sha, F.: Fastmask: Segment multi-scale object
candidates in one shot. In: Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition. pp. 991–999 (2017)
14. Huang, L., Yang, Y., Deng, Y., Yu, Y.: Densebox: Unifying landmark localization
with end to end object detection. arXiv preprint arXiv:1509.04874 (2015)
15. Li, J., Liang, X., Li, J., Wei, Y., Xu, T., Feng, J., Yan, S.: Multi-stage object
detection with group recursive learning. IEEE Transactions on Multimedia (2017)
16. Lin, T.Y., Doll´ ar, P., Girshick, R., He, K., Hariharan, B., Belongie, S.: Feature
pyramid networks for object detection. In: The IEEE Conference on Computer
Vision and Pattern Recognition (CVPR) (2017)
17. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll´ ar, P.,
Zitnick, C.L.: Microsoft coco: Common objects in context. In: European conference
on computer vision. pp. 740–755. Springer (2014)
18. Najibi, M., Rastegari, M., Davis, L.S.: G-cnn: an iterative grid based object de-
tector. In: Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. pp. 2369–2377 (2016)
19. Pinheiro, P.O., Collobert, R., Doll´ ar, P.: Learning to segment object candidates. In:
Advances in Neural Information Processing Systems. pp. 1990–1998 (2015)
20. Pinheiro, P.O., Lin, T.Y., Collobert, R., Doll´ ar, P.: Learning to refine object
segments. In: European Conference on Computer Vision. pp. 75–91. Springer (2016)
21. Rajaram, R.N., Ohn-Bar, E., Trivedi, M.M.: Refinenet: Iterative refinement for
accurate object localization. In: Intelligent Transportation Systems (ITSC), 2016
IEEE 19th International Conference on. pp. 1528–1533. IEEE (2016)
22. Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detec-
tion with region proposal networks. In: Advances in neural information processing
systems. pp. 91–99 (2015)
23. Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object
detection with region proposal networks. In: Cortes, C., Lawrence, N.D., Lee, D.D.,
Sugiyama, M., Garnett, R. (eds.) Advances in Neural Information Processing Sys-
tems 28, pp. 91–99. Curran Associates, Inc. (2015), http://papers.nips.cc/paper/
5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.
pdf
24. Rothe, R., Guillaumin, M., Van Gool, L.: Non-maximum suppression for object
detection by passing messages between windows. In: Asian Conference on Computer
Vision. pp. 290–306. Springer (2014)
25. Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z.,
Karpathy, A., Khosla, A., Bernstein, M., Berg, A.C., Fei-Fei, L.: ImageNet Large
Scale Visual Recognition Challenge. International Journal of Computer Vision
(IJCV) 115(3), 211–252 (2015). https://doi.org/10.1007/s11263-015-0816-y
26. Taigman, Y., Yang, M., Ranzato, M., Wolf, L.: Deepface: Closing the gap to human-
level performance in face verification. In: Proceedings of the IEEE conference on
computer vision and pattern recognition. pp. 1701–1708 (2014)
27. Toshev, A., Szegedy, C.: Deeppose: Human pose estimation via deep neural networks.
In: Proceedings of the IEEE conference on computer vision and pattern recognition.
pp. 1653–1660 (2014)
28. Uijlings, J.R., Van De Sande, K.E., Gevers, T., Smeulders, A.W.: Selective search
for object recognition. International journal of computer vision 104(2), 154–171
(2013)
29. Wang, X., Xiao, T., Jiang, Y., Shao, S., Sun, J., Shen, C.: Repulsion loss: Detecting
pedestrians in a crowd. arXiv preprint arXiv:1711.07752 (2017)
30. Wu, J., Lu, E., Kohli, P., Freeman, W.T., Tenenbaum, J.B.: Learning to see physics
via visual de-animation. In: Advances in Neural Information Processing Systems
(2017)
31. Yang, B., Yan, J., Lei, Z., Li, S.Z.: Craft objects from images. arXiv preprint
arXiv:1604.03239 (2016)
32. Yu, J., Jiang, Y., Wang, Z., Cao, Z., Huang, T.: Unitbox: An advanced object
detection network. In: Proceedings of the 2016 ACM on Multimedia Conference.
pp. 516–520. ACM (2016)
33. Zitnick, C.L., Doll´ ar, P.: Edge boxes: Locating object proposals from edges. In:
European Conference on Computer Vision. pp. 391–405. Springer (2014)