目标检测之YOLO V2

  • 前言
  • Better
  • Faster


前言

《YOLO9000:Better, Faster, Stronger》

论文地址:https://arxiv.org/abs/1612.08242.

torch 目标检测代码_深度学习


YOLO V2最多能识别9000种类别,但这里只介绍其在常用数据集上的方法和技巧。建议之前已经了解了YOLO V1

Better

  1. Batch Normalization:使用BN得到2%的提升,还能起到一定正则化的效果,可以移除dropout。
  2. High Resolution Classifier:先采用更高分辨率的 ImageNet图片去训练分类网络,之后再微调检测网络,得到4%的提升。
  3. Convolutional With Anchor Boxes:这里借鉴了Fasterrcnn的思想,YOLO的卷积网络会下采样32倍,一个416x416的图片会得到13x13大小的特征图,每个cell会有n个anchor。虽然这样的方法使得map下降了0.3%但是recall却极大提升,意味着模型还有很大提升空间。
  4. Dimension Clusters:前面所说的Anchor个数是通过 k-means聚合得到的。综合考虑复杂度和性能,选k=5。

torch 目标检测代码_计算机视觉_02

  1. Direct location prediction:这里没有沿用fasterrcnn的坐标计算方法,因为作者发现用在YOLO上面会使得整个模型在早期的时候训练不稳定。作者发现:这个公式是不受限制的,因此一个图像上目标可以匹配到图像上离得近的anchor也可以匹配到图像上离得很远的anchor。在随机初始化的情况下,模型需要很长时间才能稳定到预测合理的偏移量。作者改为预测以下的坐标:
  2. Fine-Grained Features:复用之前的特征,即利用多尺度的信息进行结合,抽出前面26× 26×512的特征卷积成26x26x64,再与后面13x13x1024的特征维度上叠加成13×13×2048。26x26x64–>13x13x1024的方法如下示意图:
  3. Multi-Scale Training:以32为间隔进行多尺度训练{320, 352, …, 608},每10 batches从里面随机选取一个尺度训练。

Faster

这里是说采用的主干网络更快:Darknet-19

torch 目标检测代码_人工智能_03