论文名称:Dynamic Refinement Network for Oriented and Densely Packed Object Detection
论文下载:https://arxiv.org/pdf/2005.09973.pdf
开源代码:https://github.com/Anymake/DRN_CVPR2020
Abstract
在过去的十年中,目标检测取得了显著的进展。然而,由于以下内在原因,定向和密集包装物体的检测仍然具有挑战性:(1)神经元的感受野呈平行排列且形状相同,而物体通常具有不同的形状并沿不同方向排列;(2) 检测模型通常使用一般知识进行训练,在测试时可能无法很好地泛化以处理特定对象;(3) 有限的数据集阻碍了这项任务的发展。为了解决前两个问题,我们提出了一个由两个新组件组成的动态细化网络,即特征选择模块(FSM)和动态细化头(DRH)。我们的FSM使神经元能够根据目标对象的形状和方向调整感受野,DRH使我们的模型能够以对象感知的方式动态完善预测。为了解决相关基准测试的有限可用性问题,我们收集了一个扩展的、完全带注释的数据集,即SKU110K-R,该数据集使用基于SKU110K的定向边界框重新标记。我们对几个公开可用的基准进行定量评估,包括DOTA、HRSC2016、SKU110K和我们自己的SKU110K-R数据集。实验结果表明,与基线方法相比,我们的方法取得了一致和实质性的收益。我们将发布源代码和数据集,以鼓励后续研究。
1、Introduction
目标检测在深度学习的帮助下在一些基准(例如VOC[6]和COCO[24])上取得了显著的进步。许多设计良好的方法[35,44,46,34,3]已经证明了有希望的结果。然而,当物体(如航空图像中的物体)处于任意方向且呈现密集分布时,大多数探测器都会遇到问题。此外,几乎所有检测器都在训练集上优化模型参数,并在训练后保持不变。这种使用一般知识的静态范式可能不够灵活,无法在测试期间检测特定样本。
面向对象检测的最新进展大多基于R-CNN系列框架[8,7,35]。这些方法首先生成大量水平边界框作为感兴趣区域(ROI),然后根据区域特征预测分类和位置。不幸的是,水平ROI通常会在边界框和定向对象之间出现严重错位[40,29]。例如,航空图像中的对象通常具有任意方向并密集堆积,导致其中多个实例通常是拥挤的并由单个水平ROI包含。因此,提取准确的视觉特征变得很困难。其他方法[40,26,29,28]利用定向边界框作为锚来处理旋转对象。然而,这些方法的计算复杂度很高,因为它们获得了许多设计良好的锚,具有不同的角度、比例和视角比。最近,RoI Trans[5]通过旋转RoI学习器并使用旋转位置敏感RoI对齐模块提取旋转不变区域特征,将水平RoI转换为定向RoI。然而,这种方法仍然需要设计良好的锚,并且不够灵活。
模型训练是一个从特殊到一般的过程,而推理是从一般到特殊的过程。然而,几乎所有的方法都遵循静态范式,不能基于样本进行灵活的推理。动态过滤器是一种简单而有效的方法,可以使模型在不同的样本中进行更改。现有的方法[4,38]借助于通过动态过滤器重新组装特征,并获得令人满意的结果。然而,检测器有两个不同的任务,即分类和回归。图1显示了一些示例。对于分类任务,关键是细化特征嵌入,以提高识别率。然而,对于回归问题,直接重新定义预测值是可取的。我们针对上述两个方面提出了两种版本的动态细化头(DRH)。
在这项工作中,我们采用了CenterNet[44],并以一个额外的角度预测头作为基线,提出了动态精细网络(DRN)。我们的DRN由两个新颖的部分组成:特征选择模块(FSM)和动态修正头(DRH)。FSM使神经元能够根据物体的形状和方向调整感受野,从而将精确的去噪特征传递给检测器。DRH使我们的模型能够以对象感知的方式进行灵活的推理。具体来说,我们提出了用于分类(DRH-C)和回归(DRH-R)任务的两个DRH。此外,我们还仔细研究了SKU110K[9]的面向标签的边界框,并将其命名为SKU110K-R;以这种方式,有助于面向对象的检测。为了评估提出的方法,我们在DOTA、HRSC2016和SKU110K数据集上进行了大量实验。
总之,我们的贡献包括:
<1>、我们提出了一种基于物体形状和方向自适应调节神经元感受野的新型FSM。提出的FSM有效地缓解了感受野和物体之间的错位。
<2>、我们提出了两个DRH,即DRH-C和DRH-R,分别用于分类和回归任务。这些DRH可以建模每个样本的唯一性和特殊性,并以面向对象的方式改进预测。
<3>、我们收集了一个经过仔细重新标记的数据集,即SKU110K-R,该数据集包含定向边界框的精确注释,以便于研究定向密集目标检测。
<4>、在定向和密集堆积目标检测方面,我们的方法在DOTA、HRSC2016、SKU110K和SKU110K-R上显示出一致且显著的收益。
2. Related Work
大多数目标检测方法[35,27,32,36,34,18,44,37]侧重于轴对齐或垂直的目标,当目标具有任意方向或呈现密集分布时,可能会遇到问题[9]。对于定向目标检测,一些方法[8,10,25,29,28]采用R-CNN[35]框架,并使用具有不同角度、尺寸和比例的多个锚,但计算复杂度大大增加。SRBBS[29]使用旋转的感兴趣区域(RoI)扭曲来提取旋转RoI的特征;然而,由于旋转的proposal生成需要额外的时间,所以很难嵌入到神经网络中。Dinget al.[5]提出了一种RoI转换器,用于将轴对齐的RoI转换为旋转的RoI,以解决RoI和定向对象之间的错位问题。SCRDet[42]在L1损失项中添加了一个IOU常量因子,以解决定向边界框的边界问题。与上述方法不同的是,我们建议FSM自适应地调整神经元的感受野,并重新组合具有不同角度、形状和尺度的各种对象的适当特征。
FPN[22]提出了一种特征金字塔网络,用于在多个尺度上进行目标检测。它们根据面积大小选择proposals的特征。FSAF[46]学习无锚模块以动态选择最合适的特征层。Liet al.[19]提出了一个动态特征选择模块,根据新anchors的位置和大小选择像素。这些方法旨在在对象级别选择其他合适的特征。为了变得更细粒度,SKN[20]学会了使用不同的卷积核在每个位置选择具有不同感受野的特征。SENet[11]明确地自适应地重新校准通道特征响应,而CBAM[39]采用一个更具空间注意的模块来模拟空间间的关系。我们的FSM学习以像素方式提取形状和旋转不变的特征。
空间变换网络[13]是第一个在深度学习框架中学习空间变换和仿射变换来扭曲特征图的网络。主动卷积(Active convolution)[14]使用偏移量增加卷积层中的采样位置。它在不同的空间分布上共享偏移量,并且训练后模型参数是静态的。可变形卷积网络(DCN)[4]对图像中的密度空间变换进行建模,偏移量为动态模型输出。我们FSM中的旋转卷积层以密集方式学习旋转变换。RoI Trans[5]学习五个偏移,以类似于位置敏感RoI Align[35]的方式将轴对齐的ROIs转换为旋转的ROIs。ORN[45]提出了在卷积过程中主动旋转的主动旋转过滤器。旋转角度是一个超参数,它是刚性的,所有位置共享相同的旋转角度。相反,我们的旋转变换是可学习的,可以预测每个位置的角度。
神经网络以输入特征为条件,并通过引入动态滤波器来改变样本。动态滤波器[15]在训练阶段学习滤波器权重,因此可以在推断时间提取示例特征。类似地,CARAFE[38]提出了一个卷积核预测模块,负责以内容感知的方式生成组装内核。尽管DCN[4]和RoI Trans[5]以动态方式对偏移预测建模,但它们不会改变卷积核权重。与[4,38]相比,我们的DRH旨在通过引入动态过滤器而不是特征重组,以内容感知的方式细化检测结果。
3、Our Method and Dataset
我们方法的总体框架如图2所示。我们首先在第3.1节中介绍我们的网络体系结构。每个网络层中不同对象之间的错位和单一的感受野是普遍存在的;因此,如第3.2节所述,我们建议使用FSM自动重组最合适的特征。为了使模型能够根据不同的示例动态优化预测,我们在第3.3节中建议使用DRHs实现对象感知预测。
3.1、 Network Architecture
我们使用CenterNet[44]作为我们的基线,它将一个对象建模为一个点(即边界框的中心点)并回归对象的大小和偏移量。为了预测有方向的boundding boxes,我们添加一个分支来回归边界框的方向,如图2所示。设(cx, cy, h, w,θ,δx,δy)为模型的一个输出。然后,我们通过以下公式构建有方向的边界框:
式中(cx, cy)和(δx, δy)为中心点和偏移预测;(w, h)为尺寸预测;Mr是旋转矩阵,plt,Prt,Plb和Prb是定向边界框的四个角点。在CenterNet的回归任务之后,我们使用L1损失来回归旋转角度 。
其中θ、ˆθ分别为目标真实旋转角度和预测旋转角度;N是正样本数量。因此,我们模型的总体训练目标为:
与CenterNet相同,其中Lk、Lsize和Loff是中心点认知、尺度回归和偏移回归的损失;λsize,λoff和λang是常数因子,在实验中均设为0.1。
3.2、Feature Selection Module
为了缓解各种对象和神经元的轴对齐感受野之间的不匹配,我们提出了一个特征选择模块(FSM)来自适应地聚合使用不同卷积核大小、形状(长宽比)和方向提取出来的信息(见图3)。
Multiple features
给定一个特征图X∈R(H×W×C),我们首先用1×1的卷积层压缩该特征,然后依次用Batch Normalization[12]和ReLU[31]函数以提高信息聚合。接下来,我们从Xc∈R(H×W×C′)中利用不同卷积核的旋转卷积层提取多个特征。图3显示了一个使用3×3、1×3和3×1卷积核的三段式示例。每个分割负责不同的感受野,我们称之为Xi∈R(H×W×C′),其中i∈{1,2,3}。RCL从DCN [4]中获得灵感,实现细节如图3所示。类似于DCN,我们使用R来表示规则的网格感受野和扩张。对于大小为3×3的卷积核,我们有:
给定第i个位置的预定义偏移量pi∈R和学习角度θ,学习偏移量为 :
式中,Mr(θ)是等式(1)中定义的旋转矩阵。对于输出特征图Xi中的每个位置p0,我们有:
其中pn表示位置R中的位置,w表示卷积核权重。
Feature selection
为了增强神经元的自适应感受野,我们采用了一种注意机制,以位置方式融合特征。Xi第一个进入注意块(由1×1卷积、BN、RELU依次组成),以获得注意力图Ai∈RH×W×1(i∈1,2,3)。然后,我们在通道方向上拼接Ai,然后进行SoftMax运算以获得归一化选择权重Ai ':
一个soft Attention融合了来自多个分支的特征:
其中Y∈R(H×W×C)为输出特征。为了相似,我们在Y之前省略了通道扩展层。在这里,我们将展示一个由三个分支组成的情况,其中一个分支可以很容易地扩展到更多具有不同卷积核大小和形状的分支。
3.3、Dynamic Refinement Head
在标准的机器学习框架中,人们通常通过一个大型的带注释的训练集来学习模型。在推理时,将测试样本输入到参数固定的模型中,以获得预测结果。当经过良好训练的模型只能根据从训练集中学习到的一般知识做出响应,而忽略每个示例的唯一性时,就会出现问题。
为了使模型能够根据每个样本做出响应,我们建议使用DRHs对每个输入对象的特殊性进行建模。具体而言,两个不同的模块即DRH-C和DRH-R,可分别用于分类和回归。
我们用一个三类分类问题的例子来说明我们的动机,如图1(a)中的左图所示。灰色圆形区域表示特征空间,实心点是属于三类的示例。一些样本距离判别边界较远,表明这些样本具有良好的语义判别能力。相比之下,边界边缘较小的样本不幸地与模型不太兼容。为了增强模型的灵活性,我们求助于对象感知分类/回归模块。
Dynamic refinement for classification
DRH-C的体系结构如图4所示,给定一个输入特征图Fin∈R(H×W×C),我们首先获得一个对象感知过滤器:
其中,Gc表示动态卷积生成器,ψ是Gc的参数集,Kc是学习到的示例核权重。然后,我们通过卷积运算得到特征细化因子F△:
其中,Fmid是通过卷积核为3×3的Conv-BN-ReLU块处理Fin的基本特征,以及∗表示卷积算子。最后,我们得到分类预测Hc:
式中,C(·,Φ)表示带参数Φ的分类器,‖·‖表示模数运算。我们标准化了F△在每个位置的通道方向上。标准化了的F△指示基本特征Fmid的修改方向。我们根据其长度自适应地定义基本特征。ε是控制细化范围的恒定因子。
Dynamic refinement for regression
我们还在图1(b)中展示了回归任务的一个简单示例。橙色的圆点表示示例的目标值,橙色的曲线表示学习到的回归模型。对于回归任务,研究人员通常最小化平均L1或L2距离;因此,学习的模型不能准确地拟合目标值。
为了在不增加过拟合风险的情况下预测出准确值,我们设计了一个类似于图5中所示分类器的对象加权回归头。给定特征图Fin∈R(H×W×C),我们首先通过Gr(·;φ)计算动态过滤器权重Kr,然后预测类似于公式(10) 的细化因子H△来获得最终对象感知回归结果Hr:
式中,R(·;ψ)为带有参数ψ的回归器。Hb是根据一般知识得出的基本预测值。细化因子通过tanh激活函数后范围为[−1,1]。ε是防止模型被大细化所混淆的控制因子。在我们的实验中,该因子被设置为0.1。
3.4、SKU110K-R Dataset
我们的SKU110K-R数据集是SKU110K[9]的扩展版本。原始的SKU110K数据集总共包含11762张图像(8233张用于训练,584张用于验证,2941张用于测试)和1733678个实例。这些图像是从成千上万的超市商店中收集的,它们的规模、视角、光照条件和噪音水平各不相同。所有的图像都被调整为100万像素的分辨率。数据集中的大多数实例是紧密打包的,通常在[−15◦,15◦]的范围内具有一定的方向。为了丰富数据集,我们通过将图像旋转6个不同的角度进行数剧扩充,即-45◦,-30◦,-15◦,15◦,30◦和45◦。然后,我们通过crowdsourcing为每个实例的定向边界框添加注释,以获得我们的SKU110K-R数据集。关于SKU110K-R的更多细节,请参阅我们的补充资料。
SKU110K-R数据集中带有注释定向边界框的示例图像
4、Experiments
4.1、Experimental Setup
Dataset:
我们在三个数据集,即DOTA[40],HRSC2016[29]和我们自己的SKU110K-R(Sec.3.4)上进行了实验。DOTA数据集包含2806张图像,涵盖15个目标类别。它主要用于航拍图像中带有定向边界框标注的目标检测。这些物体具有不同的比例、方向和形状。在训练之前,我们以924的步长从原始图像中裁剪出一系列分辨率为1024×1024的patches,得到大约25000个patches。为了缓解类别不平衡,我们通过随机旋转样本很少的类别进行数据扩充,最终获得大约40000个patches。HRSC2016数据集包含1061幅航空图像和20多种不同外观、比例和方向的船舶。训练、验证和测试集分别包括436,181和444张图像。我们没有对此数据集进行任何数据扩充。
对于DOTA和HRSC2016数据集,我们使用和PASCAL VOC相同的map计算方法。对于SKU110K和SKU110K-R,我们使用和COCO[25]相同的评估方法,该方法报告了IoU=0.5:0.05:0.95时的平均精度(mAP)。此外,如Goldmanet al.[9],我们报告了IoU=0.75时的AP(AP75)和IoU=0.5:0.05:0.95时的平均召回300(AR300)(300是最大对象数)。
Implementation details
我们使用hourglass-104网络作为主干。为了实现RCL,我们使用DCNV2[47]的释放代码,并用从等式5中的预测角度推导出的偏移量替换原始预测偏移量。
DOTA、HRSC2016和SKU110K-R的输入分辨率分别为1024×1024,768×768和768×768。我们使用随机缩放(范围为[0.7,1.3])、随机翻转和颜色抖动来增强数据。对于DOTA和HRSC,模型总共进行了140个epoch的训练。在第90和第120个epoch之后,学习率降低了10倍,从初始值4e−4降低到最终值4e−6。对于SKU110K-R,我们将学习速率设置为4e−4并且经过20个epoch的训练,学习率不会下降。我们使用Adam[17]作为优化器,并将批量大小设置为8。为了提高收敛性,我们在训练阶段从目标角度而不是预测角度计算偏移量。我们使用测试时的预测角度推断RCL中的偏移量。正如在CenterNet中设置的那样,我们采用了三个级别的测试增强。首先,我们在没有任何扩充的情况下评估我们的方法,。然后,我们添加了(0.5,1.0,1.5)的多尺度测试。为了合并检测,我们采用了一种面向定向边界框(angle-Softnms)的Soft-NMS[2]变体。具体来说,我们使用线性方法调整分数值,设置IoU阈值,并将阈值分别抑制为0.5和0.03。最后,我们在解码定向边界框之前添加水平翻转和平均网络预测。
4.2、Experimental Results
OBB任务在DOTA数据集上的评估结果。类别名称缩写如下:PL-Plane、BD-Baseball Diamond、BR-Bridge、GTF-Ground Field Track、SV-Small Vehicle、LV-Large Vehicle、SH-SHip、TC-Tennis Court、BC-Basketball Court、ST-Storage Tank、SBF-Soccer-Ball Field、RA- RoundAbout、HA-Harbor、SF-Swimming Pool和HC- HeliCopter。(·)∗代表多尺度测试,(·)∗∗代表翻转和多尺度测试。我们方法的其他结果都是没有任何测试增强的。
表1显示了在面向边界框(OBB)任务的DOTA测试集上将我们的方法与最先进的方法进行比较的定量结果。其他方法都是基于Anchor-based的,并且大多数都是基于Faster R-CNN的框架[35]。相比之下,我们遵循anchor-free范式并用SCRDet证明了比较的结果[42]。与基线相比,我们的方法在mAP方面取得了3.3%的显著进步。
表2以Pascal格式显示了HRSC2016的结果。我们的方法在mAP方面获得了6.4%的显著增益。这种改进表明,所提出的FSM通过自适应调整感受野,有效地解决了错位问题。
在表3中,我们以COCO格式进一步展示了评估结果。我们的方法提供1.9%的mAP增益。此外,随着IoU的增加,我们的方法也得到了改进。图7显示了使用我们的方法对DOTA和HRSC2016数据集的一些定性结果。
使用我们的方法的检测结果,上一行来自DOTA,下一行来自HRSC2016
表4显示了SKU110K-R和SKU110K的结果。对于定向对象检测,我们通过引入角度预测重新实现了YoloV3[34]。CenterNet-4point表示对每个边界框的四个角进行回归,CenterNet表示我们将中心池化和DCN[4]添加到基线中。我们将mAP提高了1.5%,并在原始SKU110K数据集上报告了优异的结果。这些数字进一步证明了我们提出的DRN的有效性。
4.3、Ablation Study
我们在DOTA验证集上进行了一系列消融实验,并以COCO格式报告了定量结果,以验证我们方法的有效性。在本节中,我们使用hourglass-52作为主干。
关于FSM在DOTA验证集上的消融研究.MK表示FSM中使用的多个卷积核,33、13和31分别表示(3,3)、(1,3)和(3,1)的卷积核大小。DCN和ROT是可变形的和旋转的卷积层
我们的FSM旨在为每个对象自适应地选择紧凑的感受野。为了尽可能地匹配对象,我们设置了三种形状的感受野,即方形、扁平和细长矩形。表5显示了使用不同设置时的结果。第一行是基线。我们首先使用3×3的卷积核构建了只有一个分支的FSM,并屏蔽了RCL。由于我们的网络与基线相同,除了在头部分支之前添加一个卷积层外,此设置获得的结果几乎与基线相同。当我们加入RCL时,观察到一些改善(0.5%),因为RCL使神经元能够通过旋转调节感受野。接下来,我们添加了一个扁平的卷积核(1×3),模型显示了改进的性能。最后,我们添加了一个细长的卷积核(3×1),模型显示了一致的增益。具有三段的FSM使神经元能够以两个自由度调节感受野,即形状和旋转。当添加了1×3的卷积核时,观察到一些更扁平的物体略有改善。为了进一步揭示FSM的有效性,我们在FSM中可视化注意力图。有关详细信息,请参阅我们的补充资料。在我们的实验中,我们建立了简单的卷积核来证明FSM的有效性,并将更复杂的卷积核形状的设计留待以后的工作。
为了对每个对象的独特性和特殊性进行建模,并使网络能够处理灵活的样本,我们为分类和回归任务设计了两个DRH。对于该分类器,我们分别从准确率(ACC)、召回率(Rec)和AP三个方面来衡量中心点预测的质量。具体来说,在我们的实验中,我们选择前300个点作为每幅图像的预测对象的中心。
表6为DRH-C消融研究结果。DRH-C的引入大大提高了分类器的性能。Acc和Rec分别从0.21增加到0.32,0.81增加到0.89。对于检测,DHR-C提供ap50 0.7%和ap75 0.6%的增益。
在表7中,为了评估DRH-R的影响,我们报告了当我们用DRH-R比例、角度和偏移回归替换原始头部时的预测误差,AP50和AP75。我们用预测值和实际值之间的标准L1距离来衡量误差。DRH-R中的前三行显示了我们用DRH-R替换对应的单个头时的结果。我们的DHR-R提供了持续的改进,尽管在角度和偏移回归任务上略有改进。原因是这两项任务相对简单,几乎达到了最优点。在尺度回归任务中,DRH-R将L1误差降低了1.24,AP50和AP75分别提高了0.7%和0.6%。表8比较了我们的方法与基线处理图像的平均时间、模型参数数量以及模型性能(AP50和AP75)。与基线相比,我们的方法取得了显著的改进,参数数量的增加非常有限。这里,我们只在scale head上应用DRH-R。
在速度、复杂度和准确度方面,将我们的方法与基线进行了比较。计时信息是在一台NVIDIA Tesla V100上使用1024×1024的图像分辨率测量的,不包括后处理时间(即NMS)
5、Conclusion
在这项工作中,我们提出了一个面向密集目标检测的统一框架。为了根据物体的形状和方向来调节神经元的感受野,我们提出了一种FSM来聚集信息,从而解决感受野和各种物体之间的错位问题。我们进一步提出了DRH-C和DRH-R来动态细化预测,从而缓解了以一般知识为基础的模型与具体对象之间的矛盾。此外,我们用定向包围盒重新标记SKU110K,得到一个新的数据集,称为SKU110K-R,以便于建立定向的和密集的目标检测模型。我们进行了大量的实验,结果表明,与基线方法相比,我们的方法在多个数据集上取得了一致的增益。在未来,我们计划探索一种更有效的动态模型机制,并研究few-shot下的定向目标检测。