Faster R-CNN:

Towards Real-Time ObjectDetection with Region Proposal Networks

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun

(主要用于自己学习)
摘要: 最先进的目标检测网络(当年最先进的)依赖于区域建议算法来假设目标位置。例如SPPnet [1] 和Fast R-CNN [2] 等算法,这些算法虽然缩短了检测网络的运行时间,但是也暴露出区域建议方法的计算瓶颈。在本文的工作中,引入了一个区域建议网络(RPN),它与检测网络共享backbone输出的特征图,从而得到耗时很小的区域建议。RPN是一个全卷积的网络,可以同时预测的目标物体的边界框和目标物体得分(前景还是背景二分类)。对RPN进行端到端的训练,可以生成高质量的建议区域,然后使用 Fast R-CNN中的算法对建议区域进行检测。通过共享卷积特征,进一步将RPN和Fast R-CNN合并到一个网络中,使用具有“注意力”机制的神经网络,RPN组件告诉统一的网络去看哪里。使用VGG-16模型[3],检测系统在GPU上的帧速率为5fps(包括所有步骤),同时在PASCAL VOC 2007、2012和MS COCO数据集上实现了最好的目标检测精度,每张图像只有300个建议框。

引言

    区域建议方法(如[4])和基于区域的卷积神经网络(RCNNs)[5]的成功推动了目标检测的进展。虽然基于区域的CNNs的计算成本与最初在[5]中开发时一样高,但是文章[1]和[2]提出的共享卷积,它们的检测时间已经大幅降低。最新的是Fast R-CNN[2],当忽略在区域建议上花费的时间时,它使用非常深的网络[3]实现了接近实时的速率。现在,提取建议框是最先进的检测系统的测试时间的瓶颈。

  区域建议方法通常依赖于简单的特征和经济的推断方案。选择性搜索算法[4]是最流行的方法之一,它基于经过设计的底层特性贪婪地合并超像素。然而,与高效的检测网络[2]相比,选择性搜索要慢一个数量级,在CPU实现中,每幅图像要慢2秒。EdgeBoxes[6]方法是目前质量和速度之间最好的平衡,每幅图0.2秒。然而,区域建议步骤仍然与检测网络消耗同样多的运行时间。

  在本文中,我们证明了使用深度卷积神经网络的计算建议框是一个优雅而有效的解决方案,在这个方案的计算中,考虑到检测网络的计算几乎是不耗时的。为此,我们引入了新的区域建议网络(RPN),它与最先进的对象检测网络[1]、[2]共享卷积层。通过在测试时共享卷积,计算建议的边界成本很小(例如,每张图像10毫秒)。

   我们观察到,基于区域的检测网络(如Fast RCNN)使用的卷积特征图也可以用于生成区域建议。在这些卷积特性之上,我们通过添加一些额外的卷积层来构造一个RPN网络,这些卷积层同时在一个规则网格上的每个位置上后退区域边界和对象化得分。因此,RPN是一种全卷积网络(FCN)[7],可以针对生成检测建议的任务进行端到端训练。

图 1:

目标检测标注文件 json转txt_卷积


   区域网络的设计是为了有效地预测具有广泛的比例尺和纵横比的区域提案。与常用的文献[8,9,1,2]的图像的金字塔(图1,a)或过滤器的金字塔(图1,b)方法不同,我们引入了新的“锚”框,在多个尺度和纵横比下作为参考。我们的方案可以被认为是一个回归参考的金字塔(图1,c),它避免了枚举多个尺度或纵横比的图像或过滤器。当使用单尺度图像进行训练和测试时,该模型表现良好,因此提高了运行速度。

  为了将rpn与Fast R-CNN[2]对象检测网络相结合,我们提出了一种训练方案,该方案在区域建议任务的微调和对象检测的微调之间交替进行,同时保持建议固定不变。该方案收敛速度快,产生了一个具有卷积特征的统一网络,在两个任务之间共享。

2相关工作

目标的建议。有大量关于目标建议框方法的文献。目标建议框方法的综合调查和比较可以在[19]、[20]、[21]中找到。广泛使用的目标建议方法包括基于超像素分组的方法(如选择性搜索[4]、CPMC[22]、MCG[23])和基于滑动窗口的方法(如windows[24]中的对象性、EdgeBoxes[6])。对象建议方法作为独立于检测器的外部模块(如选择性搜索[4]对象检测器、RCNN[5]、Fast R-CNN[2])。

用于目标检测的深度网络。R-CNN方法[5]训练CNN端到端,将建议区域分类为对象类别或背景。R-CNN主要作为分类器,不预测对象界限(除了通过边界盒回归进行细化)。它的准确性取决于区域建议模块的性能(参见[20]中的比较)。一些论文已经提出了使用深度网络来预测对象边界框[25]、[9]、[26]、[27]的方法。在OverFeat方法[9]中,一个全连接层被训练来预测一个单一对象的定位任务的盒子坐标。然后将全连接层 旋转到一个卷积层,用于检测多个类特定的对象。多盒方法[26]、[27]从一个网络生成区域建议,该网络的最后一个全连接层同时预测多个类无关的盒,推广了OverFeat的“单盒”方式。这些与类无关的框被用作R-CNN[5]的建议。与我们的全卷积方案相比,多盒建议网络适用于单个图像作物或多个大型图像作物(例如,224×224)。MultiBox在提案网络和检测网络之间不共享特征。我们稍后将在上下文中用我们的方法更深入地讨论OverFeat和MultiBox。在我们工作的同时,开发了用于学习分割建议的DeepMask方法[28]。

  卷积的共享计算[9]、[1]、[29]、[7]、[2]因其高效、准确的视觉识别而越来越受到人们的关注。超专长论文[9]从图像金字塔中计算卷积特征用于分类、定位和检测。为实现基于区域的目标检测[1]、[30]和语义分割[29],在共享卷积特征图上开发了自适应大小池(SPP)[1]。快速R-CNN[2]支持端到端检测器共享卷积特征的训练,显示了令人信服的准确性和速度。

图 2:

目标检测标注文件 json转txt_深度学习_02

3 、Faster R-CNN

  我们的目标检测系统,叫做Faster R-CNN,由两个模块组成。第一个模块是提出区域的深度全卷积网络,第二个模块是使用提出区域的快速R-CNN检测器[2]。整个系统是一个单一的、统一的对象检测网络(图2)。使用最近流行的带有“注意力”[31]机制的神经网络,RPN模块告诉快速R-CNN模块去看哪里。在3.1节中,我们介绍了区域方案网络的设计和特性。在第3.2节中,我们开发了用于训练具有共享特征的两个模块的算法。

3.1区域建议网络(RPN)

  区域建议网络(RPN)以一幅任意大小的图像作为输入和输出一组目标矩形建议框,每个建议框都有一个对象评分。我们用一个全卷积网络[7]对这个过程进行建模,我们将在本节中对此进行描述。因为我们的最终目标是与一个快速的R-CNN对象检测网络[2]共享计算,我们假设两个网络共享一组公共的卷积层。在我们的实验中,我们研究了具有5个可共享卷积层的Zeiler和Fergus模型32,以及具有13个可共享卷积层的Simonyan和Zisserman模型3。为了生成区域建议,我们在最后一个共享卷积层的卷积特征图输出上滑动一个小网络。这个小网络将输入卷积特征图的一个n×n空间窗口作为输入。每个滑动窗口被映射到一个低维的特性(ZF-256, VGG-512, ReLU[33]如下)。这个特性被输入到两个同级的完全连接的层—一个box-regression层(reg)和一个box-classification层(cls)。我们在本文中使用n = 3,注意到输入图像上的有效接受域很大(ZF和VGG分别为171和228像素)。 图3(左)显示了这个迷你网络的一个位置。请注意,由于微型网络以滑动窗口的方式运行,因此完全连接的层在所有空间位置共享。这个架构很自然地通过一个n×n卷积层实现,然后是两个同级的1×1卷积层(分别用于reg和cls)。

图 3:

目标检测标注文件 json转txt_卷积_03

3.1.1 Anchors

  在每个滑动窗口的位置,我们同时预测多个建议框,每个位置表示为k个。所以reg层 输出4k(框的坐标 4个值), 和cls层输出2k(anhcor要分positive和negative),分数估计,为每个proposal是目标或非目标的概率。k个建议是相对于k个参考框参数化的,我们称之为Anchors。锚点位于所讨论的滑动窗口的中心,并与面积和纵横比相关联(图3,左)。默认情况下,我们使用3个尺度和3个纵横比,在每个滑动位置产生k = 9个锚点。对于大小为W×H(通常为2400)的卷积特征图,总共有WH个锚点,WH*k个锚框。
平移不变性
  我们方法的一个重要特性是平移不变性,无论是锚点还是相对于锚点计算建议框的函数而言。如果平移图像中的一个对象,则建议框应该转换,并且相同的函数应该能够预测任一位置的建议框。我们的方法5保证了这种平移不变属性。作为比较,多盒方法[27]使用k-均值来生成800个锚,这些锚不是平移不变的。因此,MultiBox不保证在平移对象时会生成相同的建议。
  平移不变特性还减小了模型大小。MultiBox有一个(4+1)×800维的全连接输出层,而我们的方法在k=9个锚点的情况下有一个(4+2)×9维的卷积输出层。因此,我们的输出层有2.8×104个参数(VGG-16为512×(4+2)×9),比MultiBox的输出层少两个数量级,后者有6.1×106个参数(MultiBox[27]中的GoogLeNet[34]为1536×(4+1)×800)。如果考虑特征投影层,我们建议的层的参数仍然比MultiBox6少一个数量级。我们预计我们的方法在小型数据集(如Pascal VOC)上过度拟合的风险较小。
Multi-Scale Anchors as Regression References
  我们的锚点设计提出了一种新颖的解决多尺度(和纵横比)的方案。如图1所示,有两种流行的多尺度预测方法。第一种方式基于图像/特征金字塔,例如,在DPM[8]和基于CNN的方法[9]、[1]、[2]中。在多个尺度上调整图像的大小,并为每个尺度计算特征图(HOG[8]或深度卷积特征[9]、[1]、[2])(图1(A))。这种方法通常很有用,但很耗时。第二种方式是在特征地图上使用多种比例(和/或纵横比)的滑动窗口。例如,在DPM[8]中,使用不同的过滤器大小(例如5×7和7×5)分别训练不同长宽比的模型。如果使用这种方法来处理多个比例,可以将其视为“过滤器的金字塔”(图1(B))。第二种方式通常与第一种方式一起采用[8]。
  相比之下,我们的基于锚的方法是建立在锚的金字塔上的,这更具成本效率。我们的方法参照多种尺度和纵横比的锚框对边界框进行分类和回归。它仅依赖于单一比例的图像和特征地图,并且使用单一大小的过滤器(特征地图上的滑动窗口)。我们通过实验显示了该方案在解决多尺度和多大小问题上的效果(表8)。
  由于这种基于锚的多尺度设计,我们可以简单地使用在单尺度图像上计算的卷积特征,就像Fast R-CNN探测器[2]所做的那样。多尺度锚的设计是共享特征而不增加寻址尺度成本的关键组件。

3.1.2 Loss Function

  对于训练RPN,我们为每个锚点分配一个二进制类别标签(作为目标或不是目标)。我们给两种锚分配一个正标签:

(I)具有最高交集-并集(IOU)的一个或多个锚与真实框重叠,或(II) IOU重叠大于0.7的锚与任何真实框重叠。请注意,单个真值框可以将正标签分配给多个锚点。通常第二个条件足以确定正样本,但我们仍然采用第一个条件,因为在某些极少数情况下,第二个条件可能找不到正样本。对于所有的真实框,如果交并比低于0.3,则我们为其分配负标签。其他对于训练目标没有贡献。

  利用这些定义,我们在Fast R-CNN[2]中最小化了多任务损失后的一个目标函数。我们对图像的损失函数定义为:

目标检测标注文件 json转txt_卷积_04


  这里,i是anchors index,并且目标检测标注文件 json转txt_神经网络_05是锚i是目标物体的预测概率。目标检测标注文件 json转txt_神经网络_06代表对应的GT predict概率(即当第i个anchor与GT间IoU>0.7,认为是该anchor是positive,目标检测标注文件 json转txt_神经网络_06=1;反之IoU<0.3时,认为是该anchor是negative,目标检测标注文件 json转txt_神经网络_06 = 0;

目标检测标注文件 json转txt_目标检测标注文件 json转txt_09 是表示预测边界框的4个参数化坐标的向量,目标检测标注文件 json转txt_目标检测标注文件 json转txt_10 是与正锚点相关联的GT框的向量。

分类损失 目标检测标注文件 json转txt_深度学习_11 即rpn_cls_loss层计算的softmax loss,用于分类anchors为positive与negative的网络训练。

回归损失目标检测标注文件 json转txt_算法_12,即rpn_loss_bbox层计算的soomth L1 loss,用于bounding box regression网络训练。注意在该loss中乘了目标检测标注文件 json转txt_神经网络_06,相当于只关心positive anchors的回归(其实在回归中也完全没必要去关心negative)。其中R是soomth L1 loss。

目标检测标注文件 json转txt_神经网络_14


目标检测标注文件 json转txt_卷积_15


  对于BBOX回归,我们采用以下4个坐标的参数化[5]:

目标检测标注文件 json转txt_算法_16


其中x、y、w和h表示中心坐标及其宽度和高度。变量x、目标检测标注文件 json转txt_神经网络_17目标检测标注文件 json转txt_算法_18分别s是预测框、锚框和真实框(y、w、h也是如此)。这可以被认为是从锚框到附近的真实框的BBox回归。

  然而,我们的方法实现BBox回归的方式不同于以前的基于ROI(感兴趣区域)的方法[1]、[2]。在[1],[2]中,对从任意大小的感兴趣区域集合的特征执行BBox回归,并且回归权重由所有区域大小共享。在我们的公式中,用于回归的特征在特征地图上具有相同的空间大小(3×3)。为了适应不同的大小,学习了一组k个BBox回归变量。每个回归变量负责一个比例和一个纵横比,k个回归变量不共享权重。因此,由于锚的设计,即使特征具有固定的大小/比例,仍然可以预测各种大小的BBox。

3.1.3 Training RPNs

  RPN可以通过反向传播和**随机梯度下降(SGD)**进行端到端的训练[35]。我们遵循文献[2]中的“以图像为中心”的采样策略来训练这个网络。每个小批次产生于包含许多正面和负面示例锚点的单个图像。可以对所有锚的损失函数进行优化,但这将偏向负样本,因为它们占主导地位。取而代之的是,我们在一幅图像中随机抽样256个锚点来计算小批量的损失函数,其中采样的正负锚点的比例高达1:1。如果图像中的正样本少于128个,则用负样本填充小批量。
  我们通过从标准差为0.01的零均值高斯分布中抽取权重来随机初始化所有新层。所有其他层(即,共享卷积层)通过预先训练用于ImageNet分类的模型来初始化[36],这是标准实践[5]。我们调优ZF网的所有层,并使VGG网达到1或更高,以节省内存[2]。在Pascal VOC数据集上,我们对60k小批使用0.001的学习率,对下一个20k小批使用0.0001的学习率。我们使用的动量为0.9%,重量衰减率为0.0005[37]。我们的实现使用Caffe[38]。

3.2 Sharing Features for RPN and Fast R-CNN

  到目前为止,我们已经描述了如何训练用于区域建议生成的网络,而没有考虑将利用这些建议的基于区域的对象检测CNN。对于检测网络,我们采用Fast R-CNN[2]。接下来,我们描述学习由具有共享卷积层的RPN和Fast R-CNN组成的统一网络的算法(图2)。
  RPN和Fast R-CNN都是独立训练的,它们会以不同的方式修改它们的卷积层。因此,我们需要开发一种技术,允许两个网络共享卷积层,而不是学习两个独立的网络。我们将讨论三种训练具有共享功能的网络的方法:
(I)交替训练。在这个解决方案中,我们首先训练RPN,然后使用这些建议来训练Fast R-CNN。然后使用由Fast R-CNN调谐的网络来初始化RPN,并且重复该过程。这是本文所有实验中使用的解决方案。
**(II)**近似联合训练。在此解决方案中,RPN和Fast R-CNN网络在训练期间合并为一个网络,如图2所示。在每次SGD迭代中,前向传递生成区域建议,这些区域建议在训练Fast R-CNN检测器时被视为固定的预先计算的建议。反向传播照常发生,其中对于共享层,来自RPN损耗和快速R-CNN损耗两者的反向传播信号被组合。该解决方案易于实施。但是这个解忽略了导数w.r.t。建议箱的坐标也是网络响应,所以是近似值。在我们的实验中,我们发现这种求解器得到了接近的结果,但与交替训练相比,训练时间减少了约25%-50%。此解算器包含在我们发布的Python代码中。
(III)非近似联合训练。如上所述,由RPN预测的边界框也是输入的函数。Fast R-CNN中的ROI池化层[2]接受卷积特征和预测的边界框作为输入,因此理论上有效的反向传播求解器也应该包括梯度w.r.t。盒子的坐标。在上述近似联合训练中忽略了这些梯度。在非近似联合训练解决方案中,我们需要一个可微的w.r.t.。盒子的坐标。这是一个不平凡的问题,可以通过[15]中提出的“ROI翘曲”层给出解决方案,这超出了本文的范围。
4-Step Alternating T raining 。本文采用一种实用的4步训练算法,通过交替优化来学习共享特征。在第一步中,我们按照3.1.3节中的说明训练RPN。此网络使用ImageNet预先训练的模型进行初始化,并针对区域建议任务进行端到端微调。在第二步中,我们使用STEP-1RPN生成的建议,用Fast R-CNN训练一个单独的检测网络。该检测网络也由ImageNet预训练模型初始化。在这一点上,两个网络不共享卷积层。在第三步中,我们使用检测器网络来初始化RPN训练,但是我们固定共享的卷积层,并且只微调RPN特有的层。现在这两个网络共享卷积层。最后,在保持共享卷积层不变的情况下,我们对Fast R-CNN的独特层进行了微调。因此,两个网络共享相同的卷积层并形成统一的网络。类似的交替训练可以运行更多的迭代,但我们观察到的改进可以忽略不计。

3.3 Implementation Details

  我们在单个尺度的图像上训练和测试了区域建议网络和目标检测网络[1]、[2]。我们重新缩放图像,使其短边为s=600像素[2]。多尺度特征提取(使用图像金字塔)可能会提高精度,但不能很好地权衡速度和精度[2]。在重新缩放的图像上,ZF网和VGG网在最后一卷积层上的总步长为16像素,因此在调整大小之前的典型PASCAL图像上为∼10像素(∼500×375)。即使是如此大的步幅也能提供很好的效果,尽管用较小的步幅可能会进一步提高精确度。
  对于锚点,我们使用3个比例,框面积分别为1282、2562和5122像素,纵横比为1:1、1:2和2:1。对于特定的数据集,这些超参数没有仔细选择,我们将在下一节提供它们的消融实验。正如所讨论的,我们的解决方案不需要图像金字塔或滤波器金字塔来预测多尺度的区域,从而节省了相当多的运行时间。图3(右)显示了我们的方法在广泛的比例和纵横比范围内的能力。表1显示了使用ZF网学习的每个锚的平均建议大小。我们注意到,我们的算法允许比基础接受域更大的预测。这样的预测并不是不可能的-如果只有物体的中间是可见的,人们仍然可以粗略地推断出物体的范围。

  跨越图像边界的锚定框需要小心处理。在培训期间,我们忽略所有跨境锚,因此他们不会造成损失。对于一个典型的1000×600图像,总共大约有20000个(≈60×40×9)锚。在忽略跨界锚点的情况下,每幅图像大约有6000个锚点用于训练。如果在训练过程中不忽略越界离群点,它们会在目标中引入较大的、难以纠正的误差项,并且训练不收敛。然而,在测试期间,我们仍然将完全卷积RPN应用于整个图像。这可能会生成跨境建议框,我们将其裁剪到图像边界。

  一些RPN提案彼此高度重叠。为了减少冗余,我们根据建议区域的CLS得分对其进行非最大抑制(NMS)。我们将网管的IOU阈值固定为0.7,每张图片大约有2000个提案区域。正如我们将展示的那样,NMS不会损害最终的检测精度,但会大大减少建议的数量。在NMS之后,我们使用排名前N的建议区域进行检测。在下面,我们使用2000个RPN提案训练Fast R-CNN,但在测试时评估不同数量的提案。

5总结

我们提出的RPN可以高效、准确地生成区域方案。通过共享卷积具有下游检测网络的特点,区域建议步骤几乎是免费的。我们的方法使得统一的、基于深度学习的目标检测系统能够以接近实时的帧速率运行。学习的RPN还提高了区域建议质量,从而提高了整体目标检测精度。

REFERENCES

[1] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling in deep convolutional networks for visual recognition,” in European Conference on Computer Vision (ECCV), 2014.

[2] R. Girshick, “Fast R-CNN,” in IEEE International Conference on Computer Vision (ICCV), 2015.

[3] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in International Conference on Learning Representations (ICLR), 2015.

[4] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders, “Selective search for object recognition,” International
Journal of Computer Vision (IJCV), 2013.

[5] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[6] C. L. Zitnick and P. Dollár, “Edge boxes: Locating object proposals from edges,” in European Conference on Computer Vision(ECCV),2014.

[7] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[8] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, “Object detection with discriminatively trained part-based models,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2010.

[9] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun, “Overfeat: Integrated recognition, localization and detection using convolutional networks,” in International Conference on Learning Representations (ICLR), 2014.

[10] S. Ren, K. He, R. Girshick, and J. Sun, “FasterR-CNN: Towards real-time object detection with region proposal networks,” in
Neural Information Processing Systems (NIPS), 2015.

[11] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The PASCAL Visual Object Classes Challenge 2007 (VOC2007) Results,” 2007.

[12] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C. L. Zitnick, “Microsoft COCO: Common Objects in Context,” in European Conference on Computer Vision (ECCV), 2014.

[13] S. Song and J. Xiao, “Deep sliding shapes for amodal 3d object detection in rgb-d images,” arXiv:1511.02300, 2015.

[14] J. Zhu, X. Chen, and A. L. Yuille, “DeePM: A deep part-based model for object detection and semantic part localization,” arXiv:1511.07131, 2015.

[15] J. Dai, K. He, and J. Sun, “Instance-aware semantic segmentation via multi-task network cascades,” arXiv:1512.04412, 2015.

[16] J. Johnson, A. Karpathy, and L. Fei-Fei, “Densecap: Fully convolutional localization networks for dense captioning,” arXiv:1511.07571, 2015.

[17] D. Kislyuk, Y. Liu, D. Liu, E. Tzeng, and Y. Jing, “Human curation and convnets: Powering item-to-item recommendations on pinterest,” arXiv:1511.04003, 2015.

[18] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” arXiv:1512.03385, 2015.

[19] J. Hosang, R. Benenson, and B. Schiele, “How good are detection proposals, really?” in British Machine Vision Conference (BMVC), 2014.

[20] J. Hosang, R. Benenson, P. Dollar, and B. Schiele, “What makes for effective detection proposals?” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2015.

[21] N. Chavali, H. Agrawal, A. Mahendru, and D. Batra, “Object-Proposal Evaluation Protocol is ’Gameable’,” arXiv: 1505.05836, 2015.

[22] J. Carreira and C. Sminchisescu, “CPMC: Automatic object segmentation using constrained parametric min-cuts,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.

[23] P. Arbelaez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik, “Multiscale combinatorial grouping,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[24] B. Alexe, T. Deselaers, and V. Ferrari, “Measuring the objectness of image windows,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.

[25] C. Szegedy, A. Toshev, and D. Erhan, “Deep neural networks for object detection,” in Neural Information Processing Systems (NIPS), 2013.

[26] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov, “Scalable object detection using deep neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[27] C. Szegedy, S. Reed, D. Erhan, and D. Anguelov, “Scalable, high-quality object detection,” arXiv:1412.1441 (v1), 2015.

[28] P. O. Pinheiro, R. Collobert, and P. Dollar, “Learning to segment object candidates,” in Neural Information Processing Systems (NIPS), 2015.

[29] J. Dai, K. He, and J. Sun, “Convolutional feature masking for joint object and stuff segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[30] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun, “Object detection networks on convolutional feature maps,” arXiv:1504.06066, 2015.

[31] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, “Attention-based models for speech recognition,” in Neural Information Processing Systems (NIPS), 2015.

[32] M. D. Zeiler and R. Fergus, “Visualizing and understanding convolutional neural networks,” in European Conference on Computer Vision (ECCV), 2014.

[33] V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann machines,” in International Conference on Machine Learning (ICML), 2010.

[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, and A. Rabinovich, “Going deeper with convolutions,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[35] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, “Backpropagation applied to handwritten zip code recognition,” Neural computation, 1989.

[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei, “ImageNet Large Scale Visual Recognition Challenge,” in International Journal of Computer Vision (IJCV), 2015.

[37] A. Krizhevsky, I. Sutskever, and G. Hinton, “Imagenet classification with deep convolutional neural networks,” in Neural Information Processing Systems (NIPS), 2012.

[38] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell, “Caffe: Convolutional architecture for fast feature embedding,” arXiv:1408.5093, 2014.

[39] K. Lenc and A. Vedaldi, “R-CNN minus R,” in British Machine Vision Conference (BMVC), 2015.