本章目录

  • 9. YOLO系列目标检测算法-YOLOv7
  • 9.1 YOLOv7取得的成绩
  • 9.2 本文要点
  • 9.3 相关算法回顾
  • 9.3.1 实时的目标检测器
  • 9.3.2 模型重参数化
  • 9.3.3 Model scaling
  • 9.4 结构设计
  • 9.4.1 Extended efficient layer aggregation networks
  • 9.4.2 基于级联的模型的模型缩放
  • 9.5 可训练的bag-of-freebies
  • 9.5.1 Planned re-parameterized convolution
  • 9.5.2 Coarse for auxiliary and fine for lead loss
  • 9.5.3 其他可训练的bag-of-freebies
  • 9.6 实验
  • 9.6.1 Experimental setup
  • 9.6.2 Baselines
  • 9.6.3 与最新技术对比
  • 9.7 结论



9. YOLO系列目标检测算法-YOLOv7

论文题目《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors》2022.7.6。

9.1 YOLOv7取得的成绩

YOLOv7在速度和精度方面都超过了所有已知的物体检测器,从5 FPS到160 FPS,在GPU V100上的所有已知实时物体检测器中,具有最高的精度56.8%AP,30 FPS或更高。YOLOv7-E6目标检测器(56 FPS V100,55.9% AP)比基于transformer的检测器SWIN-L Cascade-Mask R-CNN(9.2fps A100、53.9%AP)在速度和精度上分别都高出509%和2%,与基于卷积的检测器ConvNeXt-XL Cascade-Mask R-CNN(8.6fps A100、55.2%AP)相比,速度和精度分别提高了551%和0.7%AP,此外,YOLOv7在速度和精度上优于:YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR、Deformable DETR、DINO-5scale-R50、ViT-Adapter-B和许多其他的目标检测器。此外,只需在MS COCO数据集上从头开始训练YOLOv7,而不使用任何其他数据集或预训练权重。代码地址:https://github.com/WongKinYiu/yolov7

9.2 本文要点

目前,目标检测在机器视觉中占据着特别重要的地位,应用十分广泛,包括多目标追踪、自动驾驶、机器人、医学图像分析等等。执行实时目标检测的计算设备通常是一些移动CPU或GPU,以及各种神经处理单元(NPU),例如苹果神经引擎(Apple)、神经计算stick(Intel)、Jetson AI边缘设备(Nvidia)、边缘TPU(谷歌)、神经处理引擎(高通)、AI处理单元(联发科)和AI SoC(Kneron)都是NPU。上述边缘设备中的一些侧重于加速不同的操作,例如卷积、深度卷积或MLP操作。在本文中,提出的实时目标检测器能够支持从边缘到云端的移动CPU和GPU设备。

近年来,针对不同边缘设备的实时目标检测器仍在开发中。例如MCUNet和NanoDet专注于生产低功耗单片机,提高边缘CPU的推理速度。YOLOX和YOLOR专注于提高各种GPU的推理速度。最近,实时目标检测器的开发集中于高效架构的设计。对于可在CPU上使用的实时目标检测器,他们的设计主要基于MobileNet、ShuffleNet、GhostNet。另一种主流的实时目标检测器是为GPU开发的,大多使用ResNet、DarkNet或者DLA,然后使用CSPNet策略优化架构。本文提出的方法的发展方向不同于当前主流的实时目标检测器。除了架构优化之外,本文提出的方法将重点关注训练过程的优化。本文的重点将是一些优化模块和优化方法,这些模块和方法虽然会增加训练成本,但会提高目标检测的准确性,缺不增加推理成本。

最近,模型重参数化(re-parameterization,指的是首先构造一系列结构(一般用于训练),并将其参数等价转换为另一组参数(一般用于推理),从而将这一系列结构等价转换为另一系列结构。)和动态标签分配(dynamic label assignment)已成为网络训练和目标检测中的重要课题。主要是在上述新概念提出之后,目标检测器的训练出现了许多新问题。在本文中,将介绍发现的一些新问题,并设计解决这些问题的有效方法。对于模型重参数化,本文使用梯度传播路径的概念分析了适用于不同网络中的层的模型重参数化策略,并提出了有计划的重参数化模型。 此外,发现当使用动态标签分配技术时,具有多个输出层的模型的训练将产生新的问题,即:“如何为不同分支的输出分配动态目标?”针对这个问题,本文提出了一种新的标签分配方法,称为由粗到细引导标签分配(coarse-to-fine lead guided label assignment)。

本文的贡献总结如下:

  1. 设计了几种可训练的bag-of-freebies
  2. 对于目标检测方法的发展,本文发现了两个新问题,即重参数化模块 如何替换原始模块,以及动态标签分配策略
  3. 本文提出了实时目标检测器的extend和compound scaling复合缩放
  4. 本文提出的方法可以有效地减少目前最优秀的实时目标检测器的大约40%的参数和50%的计算,并且具有更快的推理速度和更高的检测精度。

9.3 相关算法回顾

9.3.1 实时的目标检测器

目前,最先进的实时目标检测器主要基于YOLO(YOLO、YOLO9000、YOLOv3)和FCOS,例如YOLOv4、Scaled-YoLOv4、YOLOR、YOLOX、NanoDet-Plus、PP-YOLOE、YOLOv5等。要成为最先进的实时目标检测测器,通常需要以下特征:

  1. 更快更强的网络架构;
  2. 一种更有效的特征集成方法,例如NAS-FPN、CenterNet、Panoptic FPN、Efficient-Det(BiFPN)、DetectoRS(Unroing RFP)、A2-FPN、Dynamic head、Exploring plain vision transformer backbones for object detection(没有FPN的特征金字塔,simple featire pyramid);
  3. 更精确的检测方法,例如FCOS、Sparse R-CNN;
  4. 更稳健的损失函数,例如IoU loss、GIoU loss、AP loss、aLRPLoss、Distance-IoU loss、Rank & Sort (RS) loss等等;
  5. 一种更有效的标签分配方法,例如99/20/17/82/42
  6. 一种更有效的训练方法

在本文中,不打算探索需要额外数据或大型模型的自监督学习或知识蒸馏方法。相反,本文将针对与上述(4)、(5)和(6)相关的最新方法产生的问题,设计一种新的可训练的bag-of-freei=bies方法。

9.3.2 模型重参数化

模型重参数化方法(GoogLeNet,Snapshot ensembles,75,19,33,11,4,24,13,12,10,29,14,78),在推理阶段将多个计算模块合并为一个。模型重参数化技术可以被视为一种集成技术,可以将其分为两类,即模块级集成和模型级集成。有两种用于模型级重参数化以获得最终推理模型的常见用法:一种是用不同的训练数据训练多个相同的模型,然后对多个训练模型的权重进行平均。另一种方法是对不同迭代次数下的模型权重进行加权平均。

模块级重参数化是最近比较流行的研究问题。这种类型的方法在训练期间将模块拆分为多个相同或不同的模块分支,并在推理期间将多个分支模块集成为完全等效的模块。

9.3.3 Model scaling

模型缩放(EfficientNet,RegNet,EfficientDet,EfficientNetv2,Fast Scaling,

神经网络搜索(NAS)是常用的模型缩放方法之一。NAS可以从搜索空间中自动搜索合适的缩放因子,而无需定义太复杂的规则。NAS的缺点是需要非常昂贵的计算资源来完成模型缩放因子的搜索。在MnasNet中,研究人员分析了缩放因子与参数量和运算量之间的关系,试图直接估计一些规则,从而获得模型缩放所需的缩放因子。通过查阅文献,发现几乎所有模型缩放方法都独立分析单个缩放因子,甚至复合缩放中的方法也独立地优化缩放因子。这是因为大多数流行的NAS体系结构处理的缩放因子不是很相关。观察了解到,所有基于级联的模型,如DensNet或VoVNet,在缩放这些模型的深度时,将改变某些层的输入宽度。由于所提出的架构是基于级联的,因此必须为该模型设计一种新的复合缩放方法。

9.4 结构设计

9.4.1 Extended efficient layer aggregation networks

<扩展高效层聚合网络。> 在大多数关于设计高效模型结构的文章中,主要考虑的是参数量、计算量和计算密度。中提出了存储器访问成本(MAC) ,文中还分析了输入/输出通道比模型结构的分支数单元操作对网络推理速度的影响。

论文《Fast and accurate model scaling》在执行模型缩放时额外还考虑了激活,即更多地考虑卷积层输出张量中的元素数量。CSPVoVNet(图2(b))的设计是VovNet的一种变体,除了考虑上述基本设计问题外,CSPVoVNet的架构还分析了梯度路径,以使不同层的权重能够学习更多不同的特征。上述梯度分析方法使推断更快更准确。ELAN(图2(c))考虑了以下设计策略——“如何设计高效网络?”。他们得出了一个结论:通过控制最短最长的梯度路径,更深的网络可以有效地学习和收敛。

在本文中,提出了 基于ELAN的Extended-ELAN(E-ELAN),其主要架构如图2(d)所示。

目标检测 配置显卡 目标检测fps怎么计算_目标检测 配置显卡


无论大尺度的ELAN中的梯度路径长度和计算block的堆叠数量如何,它都已达到稳定状态。如果更多的计算块被无限制地堆叠,则该稳定状态可能被破坏,并且参数利用率将降低。

本文提出的E-ELAN使用expandshuffle合并

9.4.2 基于级联的模型的模型缩放

模型缩放的主要目的是调整模型的某些属性,并生成不同比例的模型,以满足不同推理速度的需要。例如,EfficientNet的缩放模型考虑了宽度、深度和分辨率。对于scaled-YOLOv4,其缩放模型是调整阶段数。在《Fast and accurate model scaling》中,分析了在进行宽度和深度缩放时,卷积和群卷积对参数和计算量的影响,并以此设计了相应的模型缩放方法。

上述方法主要用于诸如PlainNet或ResNet的架构中。当这些架构正在执行放大或缩小时,各层的入度in-degree(可以理解成输入通道数)和出度out-degree(可以理解成输出通道数)不会改变,因此,我们可以独立分析每个比例因子对参数和计算量的影响。但是如果这些方法应用于基于级联的架构,我们将发现当对深度执行放大或缩小时,紧接在基于级联的计算块之后的转换层的in-degree将增加或减少,如图3(a)和(b)所示。

目标检测 配置显卡 目标检测fps怎么计算_计算机视觉_02


从上述现象可以推断,对于基于级联的模型,不能单独分析每个比例因子,必须一起考虑。以按比例放大深度为例,这样的操作将导致过渡层的输入通道和输出通道之间的比率变化,这可能会导致模型的硬件使用量减少。因此,我们必须为基于级联的模型提出相应的复合模型缩放方法。当我们缩放计算块的深度因子时,还必须计算该块的输出通道的变化。然后,我们将对过渡层执行相同变化量的宽度因子缩放,结果如图3(c)所示。本文提出的复合缩放方法可以保持模型在初始设计时的特性,并保持最佳结构。

目标检测 配置显卡 目标检测fps怎么计算_目标检测_03


表3展示了使用不同的模型缩放策略进行缩放时获得的结果。从表3的结果可以看出,本文提出的复合缩放策略可以更有效地利用参数和计算。

9.5 可训练的bag-of-freebies

9.5.1 Planned re-parameterized convolution

尽管RepConv在VGG上取得了优异的性能,但当我们直接将其应用于ResNet和DensNet以及其他架构时,其精度会显著降低。本文使用梯度流传播路径来分析如何将重参数化卷积与不同的网络相结合,还相应地设计和规划了重参数化卷积。

RepConv实际上在一个卷积层中结合了3×3卷积、1×1卷积和identity连接。在分析了RepConv和不同架构的组合和相应性能之后,发现RepConv中的identity连接破坏了ResNet中的残差和Denset中的级联,这为不同的特征映射提供了更多的梯度多样性。基于上述原因, 本文使用无indentity连接的RepConv(RepConvN)来设计planned重参数化卷积的架构。在我们的思想中,当具有残差或级联的卷积层被重参数化的卷积代替时,应该不使用indentity连接。图4显示了设计的“planned re-paramenterized convolution”示例用于PlainNet和ResNet。

目标检测 配置显卡 目标检测fps怎么计算_目标检测 配置显卡_04


为了验证提出的planned重参数化模型的通用性,将其分别用于基于级联的模型和基于残差的模型进行验证。

  1. 基于级联的模型(使用3-stacked ELAN)
    用RepConv替换3-stacked ELAN中不同位置的3×3卷积层,详细配置如图6所示。
  2. 目标检测 配置显卡 目标检测fps怎么计算_神经网络_05


  3. 目标检测 配置显卡 目标检测fps怎么计算_目标检测_06

  4. 从表4所示的结果中,我们可以看出,所有较高的AP值都存在于本文提出的planned重参数化模型中。
  5. 基于残差的模型(使用CSPDarknet)
    因为原始dark block没有符合本文设计策略的3×3卷积,所有专门还为实验设计了一个reversed dark block,其架构如图7所示。由于SCPDarknet中的dark block和reversed dark block具有完全相同的参数和操作量,因此进行比较是公平的。表5中所示的实验结果充分证明,所提出的planned重参数化模型对基于残差的模型同样有效。我们发现RepCSPResNet的设计也符合本文的设计模式。
  6. 目标检测 配置显卡 目标检测fps怎么计算_计算机视觉_07


  7. 目标检测 配置显卡 目标检测fps怎么计算_神经网络_08

9.5.2 Coarse for auxiliary and fine for lead loss

<辅助用粗,lead loss用细>

深度监督《Deeply-supervised nets》是一种经常用于训练深度网络的技术。其主要概念是在网络的中间层添加额外的辅助头,并以具有辅助损耗的浅层网络权值作为导向。即使对于诸如ResNet和DensNet等通常收敛良好的架构,深度监督仍然可以显著提高模型在许多任务上的性能。图5(a)和(b)分别展示了“无”和“有”深度监督的目标检测器架构。在本文中,将负责最终输出的head称为lead head,用于辅助训练的head称之为辅助head

目标检测 配置显卡 目标检测fps怎么计算_神经网络_09


接下来,讨论标签分配 的问题。过去,在深度网络的训练中,标签分配通常直接参考GT,并根据给定的规则生成hard标签。然而,近年来,如果以目标检测为例,研究人员经常使用网络预测输出的质量和分布,然后与GT一起考虑使用一些计算和优化方法来生成可靠的soft标签( [61, 8, 36, 99, 91, 44, 43, 90, 20, 17, 42])。例如,YOLO使用边界盒回归预测的IoU和GT作为对象性的soft标签。在本文中,我们将这种机制称为“label assigner(标签分配器)”

无论辅助head或lead head的情况如何,都需要针对目标进行深度监督训练。在soft标签分配器相关技术的开发过程中,意外发现了一个新的衍生问题,即“如何为辅助head和lead head分配soft标签?”。据了解所知,到目前为止,相关文献尚未探讨这一问题。目前最流行的方法的结果如图5(c)所示,其用于分离辅助head和lead head,然后使用他们各自的预测结果和GT来执行标签分配。 本文提出的方法是一种新的标签分配方法,通过lead head预测来引导辅助head和lead head。换句话说,使用lead head预测作为指导来生成从粗到细的分层标签,分别用于辅助head和lead head学习。图5(d)和(e)分别展示了这两种提出的深度监督标签分配策略。

(Lead head guided label assigner) lead head导向标签分配器

(Coarse-to-fine lead head guided label assigner)由粗至细的lead head引导标签分配器 ,也使用lead head的预测结果和GT生成soft标签。然而,在此过程中,生成了两组不同的soft标签,即粗标签细标签,其中细标签与lead head引导标签分配器生成的soft标签相同,并且通过放松正样本分配过程的约束,允许更多grid被视为正目标来生成粗标签。其原因是辅助head的学习能力不如lead head强,为了避免丢失需要学习的信息,将重点优化目标检测任务中辅助head的召回。对于lead head的输出,可以从高召回率结果中过滤出高精度结果作为最终输出。但是,必须注意,如果粗标签的附加权重与细标签很接近,它可能在最终预测时产生不良先验。因此为了使这些超粗正网格具有较小的影响,在解码器中设置了限制,使得超粗正grid不能完美地产生soft标签。上述机制允许在学习过程中动态调整细标签和粗标签的重要性,并且使得细标签的优化上界总是高于粗标签。

目标检测 配置显卡 目标检测fps怎么计算_计算机视觉_10


在辅助head辅助损失实验中,比较了lead head和辅助head的一般独立标签分配方法,并比较了两种提出的lead head引导标签分配方法。在表6中展示了所有比较结果。从表6中列出的结果可以看出,任何增加辅助损失的模型都可以显著改善整体性能。此外,本文提出的lead引导标签分配策略在AP、AP50和AP75中获得了比一般独立标签分配策略更好的性能。对于提出的 “Coarse for auxiliary”和“ fine for lead loss”标签分配策略,它在所有情况下都会产生最佳结果。

目标检测 配置显卡 目标检测fps怎么计算_计算机视觉_11


在图8中,展示了在辅助head和lead head处通过不同方法预测的目标热图。从图8中可以发现,如果辅助head学习lead head引导的soft标签,它确实有助于lead head从一样的目标中提取剩余信息。

目标检测 配置显卡 目标检测fps怎么计算_算法_12


在表7中,进一步分析了所提出的粗到细lead引导标签分配方法对辅助head解码器的影响。也就是说,比较了有/没有引入上界约束的结果。从表中的数字来看,通过距离对象中心的距离来约束对象度上界的方法可以获得更好的性能。由于所提出的YOLOv7使用多个金字塔来联合预测目标检测结果,所以可以直接将辅助head连接到中间层的金字塔上进行训练。这种类型的训练可以弥补在下一级金字塔预测中可能丢失的信息。基于上述原因,本文在提出的E-ELAN架构中设计了部分辅助head。方法是在合并基数(通道)之前将辅助head连接到一组特征映射之后,这种连接可以使新生成的特征映射集的权重不直接由辅助损失更新。这样的设计允许lead head的每个金字塔仍然从不同大小的物体获取信息。表8展示了使用两种不同方法获得的结果,例如粗至细lead导向和部分由粗至细lead导向方法。显然,部分粗到细lead引导方法具有更好的辅助效果。

目标检测 配置显卡 目标检测fps怎么计算_神经网络_13

9.5.3 其他可训练的bag-of-freebies

本节介绍一些可用于训练的freebies,这些freebies是在训练中使用的一些技巧,但最初的概念不是本文中提出的。这些freebies包括:

  1. conv-bn-activation结构中的BN
  2. YOLOR中的隐式知识与卷积特征图以加法和乘法方式相结合
  3. EMA模型

9.6 实验

9.6.1 Experimental setup

本文只使用COCO数据集来进行目标检测的实验,所有的实验中都没有加载预训练模型,完全从0开始训练。在开发过程中,使用train 2017 set进行训练,然后使用val 2017 set进行验证和选择超参数。最后,在test 2017 set上统计目标检测的性能,并将其与最先进的目标检测算法进行了比较。

本文分别为边缘GPU、普通GPU和云GPU 设计了基本模型,分别称为YOLOv7-tinyYOLOv7YOLOV-W6 。同时,针对不同的需求,对三个基本模型进行模型扩展,得到不同类型的模型。对于YOLOv7,在neck部进行stack缩放,并使用提出的复合缩放方法对整个模型的深度和宽度进行缩放,利用这些方法得到YOLOV 7-X 。对于YOLOv7-W6,使用新提出的复合缩放方法得到YOLOV 7-E6YOLOv7-D6。此外,将提出的 E-ELAN用于YOLOv7-E6,从而得到了YOLOV7-E6E

9.6.2 Baselines

选择以前版本的YOLO[YOLOv4,Scaled-YOLOv4]和最先进的目标检测器YOLOR作为基线。表1展示了本文提出的YOLOv7模型与使用相同设置训练的基线模型的比较。

目标检测 配置显卡 目标检测fps怎么计算_神经网络_14


从结果中我们可以看出,与YOLOv4相比,YOLOv7的参数减少了75%,计算量减少了36%,AP增加了1.5%。若和现有的YOLOR-CSP相比,YOLOv7的参数减少了43%,计算量减少15%,AP高0.4%。在微型模型的性能方面,与YOLOv4-tiny-31相比,YOLOv7tiny减少了39%的参数数量和49%的计算量,但保持了相同的AP。在云GPU模型上,本文的模型仍然可以具有更高的AP,同时将参数数量减少19%,计算量减少33%。

9.6.3 与最新技术对比

将所提出的方法与用于通用GPU和移动GPU的最先进的目标检测器进行了比较,结果如表2所示。

目标检测 配置显卡 目标检测fps怎么计算_神经网络_15

9.7 结论

本文提出了一种新的实时目标检测器体系结构相应的模型缩放方法。此外还发现,目标检测方法的发展过程产生了新的研究课题。在研究过程中,发现了 重参数化模块的替换问题动态标签分配的分配问题 。为了解决这个问题,本文提出了一种可训练的bag-of-freebies ,以提高目标检测的准确性。在此基础上,开发了YOLOv7系列目标检测系统